DeepSeek推出NSA，可用于超快速的长上下文训练和推理

责任编辑：包建羽 2025.02.19 08:59 来源：通信世界全媒体

DeepSeek

NSA

长上下文训练

通信世界网消息（CWW）2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。

DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理！其核心组件包括：动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。

DeepSeek称，通过针对现代硬件的优化设计，NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中，NSA的表现可媲美甚至超越全注意力模型。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动