欢迎访问深圳市中小企业公共服务平台电子信息窗口

DeepSeek下一代技术曝光:“原生稀疏注意力”!

2025-07-31 来源:电子工程专辑 原创文章
133

关键词: DeepSeek 原生稀疏注意力 算法硬件协同 长文本处理 ACL2025

在今年1月突然爆火之后几个月来,DeepSeek下一代技术一直值得期待。

近日,DeepSeek的下一代技术“原生稀疏注意力”(NSA)在ACL 2025大会上提前曝光,同时由DeepSeek创始人梁文锋作为通讯作者与北京大学等机构联合发表的论文荣获最佳论文奖。这一成果标志着DeepSeek在长文本处理和计算效率方面取得了重大突破。

据悉,ACL 2025的投稿量高达8360篇,是历史上最卷的一届,竞争异常激烈。尽管如此,DeepSeek与北京大学合作的论文凭借其创新性和实用性,成功脱颖而出,获得了最佳论文奖。该论文不仅在技术上具有突破性,还在学术界和工业界引发了广泛关注。

核心技术贡献:动态分层稀疏策略

传统稀疏注意力方法通常通过固定的稀疏模式(如滑动窗口、全局-局部组合)来降低计算复杂度,但这往往以牺牲模型性能为代价。NSA的革命性在于它采用了一种动态、分层的稀疏策略,通过三条精心设计的并行注意力分支协同工作,实现了效率与能力的完美平衡 :

1.压缩注意力(Compression Attention) :此分支负责捕捉全局的、粗粒度的信息模式。它类似于人类快速浏览文章以抓住核心大意,通过对输入序列进行压缩,高效地构建全局上下文表征。

2.选择性注意力(Selective Attention) :此分支聚焦于序列中最关键的词块(token),执行更精细的计算。这好比人类在阅读时对重点段落进行精读,确保模型不会错过最重要的语义信息。

3.滑动注意力(Sliding Attention) :此分支专注于处理局部的、相邻的上下文信息,确保模型对文本细节的理解不丢失。这相当于人类逐字逐句地阅读,保证了局部语境的连贯性。

这种动态分层设计并非简单地丢弃信息,而是通过智能算法,将计算资源动态地分配到最需要的地方,从而在大幅降低计算密度的同时,最大程度地保留了模型的表达能力 。

关键创新点:算法与硬件的协同革命

NSA的另一大突破在于它不仅仅是算法层面的创新,更是算法与现代GPU硬件深度协同优化的典范。该机制实现了端到端的“原生可训练”模式,意味着它在训练阶段就能高效运行,而非像某些早期稀疏方法那样需要复杂的工程改造或只能在推理阶段使用 。通过对计算图、内存访问模式进行深度优化,NSA能够充分利用GPU的并行计算能力,实现了惊人的性能提升。

与传统全注意力模型相比,NSA在多个维度上表现出显著优势:

  • 速度提升:在处理64k长度序列时,NSA在解码阶段速度提升11.6倍,前向传播提升9倍,反向传播提升6倍。

  • 性能超越:在9个评测指标中,采用NSA预训练的27B参数模型有7个超越了全注意力基线。

  • 长文本处理能力:在LongBench基准测试中,NSA取得了0.469的平均分,不仅超越了全注意力基线(+0.032),还大幅领先其他稀疏注意力方法。

  • 数学推理能力:在AIME 24测试中,NSA-R在8k上下文设置下的准确率达到0.121,而全注意力模型仅为0.046;在16k上下文下,NSA-R仍保持0.146的准确率,远超全注意力的0.092。

ACL2025评选出4篇最佳论文

ACL 2025 是国际计算语言学协会(ACL)于 2025 年 7 月 27 日至 8 月 1 日在奥地利维也纳举行的第 63 届年度会议。该会议是自然语言处理(NLP)领域的顶级学术会议之一,其主题为“NLP 模型的泛化”,旨在探讨如何增强模型在多任务、多语言、多领域和多数据分布下的鲁棒性和可靠性。ACL2025最终评选出了4篇最佳论文。

  1. 《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》
    该论文由北京大学、DeepSeek和华盛顿大学合作完成,作者包括Jingyang Yuan、Huazuo Gao等。论文提出的稀疏注意力(NSA)模型在长文本处理方面表现出色,将处理速度提高了最多11倍,性能超过了全注意力模型。该模型专为硬件优化设计,推动了高效大型语言模型的发展。

  2. 《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》
    该论文由Sarath Sivaprasad、Pramod Kaushik、Sahar Abdelnabi和Mario Fritz共同撰写,来自CISPA亥姆霍兹信息安全中心、TCS研究院和微软。论文探讨了大语言模型(LLM)在生成内容时的行为模式,指出其不仅反映数据中的常见情况,还会系统性地偏向“理想化”状态。这一现象可能带来决策偏见和伦理问题。

  3. 《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》
    该论文由Angelina Wang、Michelle Phan、Daniel E. Ho和Sanmi Koyejo共同撰写,来自斯坦福大学。论文挑战了当前AI公平性研究的主流观点,提出“差异意识”(DiffAware)和“情境意识”(CtxtAware)的概念,强调在适当情况下识别和区别对待不同群体的重要性。

  4. 《Language Models Resist Alignment: Evidence From Data Compression》
    该论文由北京大学人工智能研究院的研究人员撰写,包括Jiaming Ji、Kaile Wang等。论文揭示了大语言模型在对齐训练过程中存在“弹性”现象,即模型倾向于维持其原始行为和知识分布,抗拒对齐训练带来的改变。这一发现对实现真正稳固、深入的对齐具有重要意义。

ACL2025的4篇最佳论文分别涉及稀疏注意力技术、LLM的行为模式、AI公平性、以及模型对齐的弹性,展示了自然语言处理领域的最新研究成果和创新方向。