中国联通发布业界首款“自适应慢思考”的开源通用思维链大模型

责任编辑:王鹤迦 2025.01.24 08:19 来源:通信世界全媒体

通信世界网消息(CWW)大模型发展至今,其理解和生成能力显著提升,不仅得益于数据量和模型参数的增长,也离不开思维链技术的应用。该技术通过模拟人类解决问题的思考过程,引导模型在输出答案前进行深入思考,提供更具解释性的推理步骤,从而提高答案的准确性。但同时,这一技术也带来了答案长度增加和推理计算资源消耗过大等问题。

联通数据智能有限公司于1月18日发布了元景思维链大模型。作为央企首个开源的通用思维链大模型,元景思维链大模型既拥有强大的慢思考能力,又具备不限于数学的多学科、多场景通用推理能力,且能做到针对不同任务和难度的自适应慢思考,大幅降低了资源消耗,实现了大模型“慢思考”能力高性价比落地应用。

推理能力业界领先,超过通义千问QwQ,比肩OpenAI o1

元景思维链大模型基于合成数据进行分步采样构造长思维链形式的答案,经过质量评估后得到长思维链训练集,在此基础上对基座模型进行监督微调,使基座模型具备了“慢思考”能力,后续通过对模型采样构造答案偏序对,经过强化学习后得到最终的元景思维链大模型。

主流榜单的测评结果显示:元景思维链大模型的表现超过了目前最好的通用语言模型(GPT-4o和Deepseek V3)以及业界顶尖开源思维链模型通义千问QwQ。


图片1.jpg

图片2.jpg

思维链大模型整体实现方案

“自适应慢思考”显著优化推理性能

元景思维链大模型通过任务自适应和难度自适应两种策略来实现模型的“自适应慢思考”。

主流思维链大模型在知识问答、信息提取等非推理任务中常因过度思考生成冗余信息。元景思维链大模型通过将通用领域指令数据与推理任务的长思维链数据合理配比后以混合微调方式赋予模型一定的任务自适应能力。该模型在推理任务中使用慢思考长思维链模式,在常规任务中输出简洁回答,显著优化了推理性能并缓解了信息过载问题。

在非推理任务测评集上对比,元景思维链模型在保证正确率的情况下明显倾向于生成更短的答案(长度小于100和200个token的数量明显多于通义千问QwQ):

图片3.jpg

非推理任务长度对比:元景思维链大模型vs通义千问QwQ

元景思维链大模型在评估模型生成的长思维链数据时,除了考虑生成的答案正确与否,还综合考虑了问题的难度以及生成答案的长度,通过强化学习让模型将答案长度与当前问题的难度相匹配。

在推理任务测评集(MATH)上对比,元景思维链模型在不同难度等级的问题上生成的回答长度较通义千问QWQ均明显下降,并且对于最高难度(Level 5)输出的回答长度减少幅度最低,体现了模型对不同难度等级问题具有一定的自适应能力。

图片4.jpg

推理任务长度对比:元景思维链大模型vs通义千问 QwQ模型


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容