通信世界网消息(CWW)2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。
DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理!其核心组件包括:动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。
DeepSeek称,通过针对现代硬件的优化设计,NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现可媲美甚至超越全注意力模型。
通信世界网消息(CWW)2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。
DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理!其核心组件包括:动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。
DeepSeek称,通过针对现代硬件的优化设计,NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现可媲美甚至超越全注意力模型。