通信世界网消息(CWW)大模型发展至今,其理解和生成能力显著提升,不仅得益于数据量和模型参数的增长,也离不开思维链技术的应用。该技术通过模拟人类解决问题的思考过程,引导模型在输出答案前进行深入思考,提供更具解释性的推理步骤,从而提高答案的准确性。但同时,这一技术也带来了答案长度增加和推理计算资源消耗过大等问题。
联通数据智能有限公司于1月18日发布了元景思维链大模型。作为央企首个开源的通用思维链大模型,元景思维链大模型既拥有强大的慢思考能力,又具备不限于数学的多学科、多场景通用推理能力,且能做到针对不同任务和难度的自适应慢思考,大幅降低了资源消耗,实现了大模型“慢思考”能力高性价比落地应用。
推理能力业界领先,超过通义千问QwQ,比肩OpenAI o1
元景思维链大模型基于合成数据进行分步采样构造长思维链形式的答案,经过质量评估后得到长思维链训练集,在此基础上对基座模型进行监督微调,使基座模型具备了“慢思考”能力,后续通过对模型采样构造答案偏序对,经过强化学习后得到最终的元景思维链大模型。
主流榜单的测评结果显示:元景思维链大模型的表现超过了目前最好的通用语言模型(GPT-4o和Deepseek V3)以及业界顶尖开源思维链模型通义千问QwQ。
思维链大模型整体实现方案
“自适应慢思考”显著优化推理性能
元景思维链大模型通过任务自适应和难度自适应两种策略来实现模型的“自适应慢思考”。
主流思维链大模型在知识问答、信息提取等非推理任务中常因过度思考生成冗余信息。元景思维链大模型通过将通用领域指令数据与推理任务的长思维链数据合理配比后以混合微调方式赋予模型一定的任务自适应能力。该模型在推理任务中使用慢思考长思维链模式,在常规任务中输出简洁回答,显著优化了推理性能并缓解了信息过载问题。
在非推理任务测评集上对比,元景思维链模型在保证正确率的情况下明显倾向于生成更短的答案(长度小于100和200个token的数量明显多于通义千问QwQ):
非推理任务长度对比:元景思维链大模型vs通义千问QwQ
元景思维链大模型在评估模型生成的长思维链数据时,除了考虑生成的答案正确与否,还综合考虑了问题的难度以及生成答案的长度,通过强化学习让模型将答案长度与当前问题的难度相匹配。
在推理任务测评集(MATH)上对比,元景思维链模型在不同难度等级的问题上生成的回答长度较通义千问QWQ均明显下降,并且对于最高难度(Level 5)输出的回答长度减少幅度最低,体现了模型对不同难度等级问题具有一定的自适应能力。
推理任务长度对比:元景思维链大模型vs通义千问 QwQ模型