新突破!中国电信复现DeepSeek R1,探索行业大模型建设新路径→

责任编辑:VarCrystal 2025.02.19 16:40 来源:厂商供稿

image.png

image.png

DeepSeek是由深度求索开发的低成本、高性能开源大语言模型,该模型通过强化学习与混合专家结构(MOE)的技术创新,以工程优化突破硬件限制,实现了“算力需求下降但性能提升”的反共识路径。开源策略重塑了AI生态,为全球开发者提供普惠工具,标志着从“算力堆砌”向“算法效率”的产业转型。中国电信政企信息服务事业群DeepSeek攻坚团队紧跟技术潮流,基于行业数据复现R1模型,提出行业大模型优化的新思路。

政企信息服务事业群DeepSeek攻坚团队选取医疗行业数据作为实验对象,基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B两个开源模型,对DeepSeek-R1相关技术的复现实验,通过复现其强化学习(RL)训练和基于R1的蒸馏模型监督微调(SFT)训练过程,提高了政企医疗行业大模型的应用能力,使行业大模型的落地有了新思路。

本次实验通过两种建设路径提升行业大模型的应用能力:

☑  在数据方面

通过R1蒸馏模式提升行业数据质量。在合成高质量的行业数据的同时提升现有行业数据的质量。

☑  在训练方面

借鉴DeepSeek的GRPO强化学习模式,提升行业大模型训练效率和逻辑推理能力。让模型更懂行业知识,更好地回答行业问题。

实验准备

在数据准备阶段,研究团队通过DeepSeek-R1 API进行知识蒸馏,对原本仅包含问题和答案的医疗数据集进行了优化升级,生成了包含完整推理过程和最终答案的高质量医疗推理数据集。一系列优化显著提升了数据的逻辑性和质量,为后续行业大模型的训练与优化提供了可靠保障。毕竟,高质量的数据是提升大模型能力的关键所在。

随后,研究团队分别对基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B两个开源模型进行了SFT训练,旨在验证经过R1蒸馏优化的基模型相较于原始基模在能力上是否存在显著提升。

实验分析

在RL复现阶段,研究团队采用GRPO算法对两个开源模型进行了训练,并使用高质量医疗推理数据集对其性能进行了全面评估。实验过程如下图,可看到RL后的模型能快速掌握基本格式与逐步掌握严格格式规范。

☑  格式正确性奖励

该奖励值从一开始就在满分附近波动,表明模型能够快速学习到基本格式要求。

☑  严格格式奖励

该奖励值在训练初期显著上升,并最终趋于稳定,说明模型逐步掌握了更严格的格式规范。

image.png

实验对比结果显示,经过微调的模型在回答通用问题和专业问题时均表现出显著提升。具体而言,模型不仅能够提供更加准确和专业的答案,还引入了清晰的思考过程,使回答的逻辑性和可解释性得到了增强。这种改进不仅提升了模型的可信度,也使其在医疗领域的实际应用中更具实用价值。实验结果表明,GRPO算法结合高质量数据集的训练策略,能够有效提升模型在复杂场景下的表现。

☞ 微调前模型回复:

image.png

☞ 微调后模型回复:

image.png

紧接着,研究团队对行业蒸馏数据的微调过程进行了复现实验,重点验证了高质量推理行业数据对模型性能的提升效果。实验发现,经过高质量推理行业数据微调的模型在回答专业领域问题时表现显著优于未微调的模型,其答案的准确性和专业性均有明显提升。实验过程可以看到,加入instruction的模型(实验2)对比没有加入instruction的模型(实验1)收敛速度略快、波动略小。

image.png

此外,微调后的模型能够更稳定地输出带有完整思考过程的答案,包括清晰的推理步骤和逻辑链条,这不仅增强了答案的可信度,也提高了模型在实际应用中的实用性。对比结果如下:

☞ 微调前模型回复:

image.png

☞ 微调后模型回复:

image.png

模型评价

政企医疗行业大模型是基于Qwen-2.5 14B基模进行微调训练而产生的行业大模型,是专业的医疗垂直领域的大模型。其中V1是使用DeepSeek蒸馏前,V2是基于DeepSeek构造数据进行微调和强化学习的版本,各个大模型在最专业的医疗大模型评测榜单之一——MedBench上的评分如下图。

微信图片_20250219164442.png

DeepSeek、行业大模型、Qwen能力对比

可以看出,经过DeepSeek蒸馏的医疗行业大模型(V2)的综合评分最高

实验总结

本次实验验证了DeepSeek相关技术在行业大模型优化中的普适性和有效性,为行业大模型的性能提升提供了新的技术范式。通过将R1模型的蒸馏技术和强化学习机制深度融合到行业大模型的训练框架中,能够显著提升模型在垂直领域的知识理解、推理能力和场景适应性。这一技术方案不仅解决了行业大模型训练中面临的数据专业性、领域知识融合和应用可靠性等核心问题,还为行业大模型的优化提供了可复制的技术路径。

实验结果表明,采用该方案的行业大模型在领域知识问答、专业文本理解和复杂决策支持等任务上均实现了性能的显著提升,为构建行业大模型和各行业大模型的迭代升级提供了重要的技术支持和实践经验参考。这一成果标志着行业大模型的优化迈入了新的阶段,为垂直领域智能化转型提供了强有力的技术支撑

当前,DeepSeek-R1满血版

已接入中国电信星辰MaaS平台

作为数字化创新的主力军

中国电信持续在AI赛道“深度求索”

为行业大模型进阶创新注入新动能


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容