专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

购买VIP

购买成为VIP，可查看文章或者RSS订阅

提交新专栏

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

小宇宙RSS订阅方法

X平台RSS订阅方法

Telegram频道RSS订阅方法

油管文字版RSS订阅方法

RSSHub订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

TodayRss-海外RSS稳定源

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

量子位 · 公众号 · AI · 2025-02-19 13:19

主要观点总结

DeepSeek新提出的注意力机制NSA引发讨论热潮。该机制旨在解决大模型上下文建模中计算成本高昂的问题，实验表明其能显著提高前向传播、反向传播和解码速度。论文介绍了NSA的核心方法，包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择等。研究人员用包含知识、推理和编码能力的多个通用基准测试验证了NSA的有效性。

关键观点总结

关键观点1: 新注意力机制NSA被提出

为了解决大模型上下文建模中计算成本高昂的问题，DeepSeek提出了名为NSA的可原生训练的稀疏注意力机制。

关键观点2: NSA的实验结果显著

实验表明，NSA在64k上下文的解码、前向传播和反向传播中均实现了显著加速，其中前向传播速度最高可提升9倍，反向传播速度最高可提升6倍，解码速度提升可达11.6倍。

关键观点3: NSA的核心方法

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。这些方法旨在减少计算量的同时，避免信息丢失，使模型在处理长序列时既高效又精准。

关键观点4: NSA的有效性得到验证

在包含知识、推理和编码能力的多个通用基准测试中，与全注意力模型相比，NSA模型性能不降反超，验证了NSA的有效性。

关键观点5: 评选报名活动

关于2025年值得关注的AIGC企业与产品的评选正在进行，结果将于4月中国AIGC产业峰会上公布。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
文章地址：访问文章快照

分享到微博

推荐文章

人工智能那点事 · 宇树科技发布载人变形机甲，可以变形，民用交通工具，售价390万元起

15 小时前

赛博禅心 · OpenAI 买了家咨询公司，把它的 150 名工程师派去驻场

昨天

AI前线 · 黄仁勋被授予 CMU 荣誉博士！陈立武亲自为其授袍，不用英特尔为其代工的英伟达，改策略了？

昨天

爱可可-爱生活 · 【用AI快速写代码的背后，藏着程序员的隐性焦虑】快速阅读：AI -20260511081736

昨天

深度学习与NLP · 彻底疯了！存储芯片集体涨停！

2 天前

观研天下 · 中国‌‌‌‌‌‌‌‌生物试剂行业现状深度研究与发展前景分析报告（2024-2031年）

1 年前

一起食安行 · 【今晚19:30】公益直播第399期：公益直播第399期：精益与浪费概述

11 月前

常岩CY · 大厂责任来了。揽胜品牌卫士品牌表示，7月20-31日购指定车型，-20250720132956

9 月前

乌兰察布云 · 乌兰察布事业单位比选工作人员核减岗位公告

5 月前

财联社APP · 【EIA短期能源展望报告：预计2025年WTI原油价格为65.3-20251210073441

5 月前