专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

量子位 · 公众号 · AI · 2025-01-27 13:06

主要观点总结

本文介绍了阿里云Qwen团队首次将开源Qwen模型的上下文扩展到1M长度的新模型Qwen2.5系列，包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。这些模型在处理长文本任务中展现出超越GPT-4o-mini的性能，能够实现近7倍的提速。文章详细描述了模型在长文本任务中的表现以及背后的关键技术，包括长上下文训练、长度外推和稀疏注意力机制等。同时提供了在线体验地址、技术报告及参考链接。

关键观点总结

关键观点1: Qwen新模型首次将上下文扩展到1M长度。

Qwen模型在处理长文本任务中展现出超越GPT-4o-mini的性能，实现了近7倍的提速。

关键观点2: Qwen新模型在长文本任务中的卓越性能。

Qwen新模型在Passkey Retrieval等任务中展现出精准的长文本信息检索能力，并且在复杂的长上下文理解任务中也表现出色。

关键观点3: Qwen新模型背后的关键技术。

包括长上下文训练、长度外推和稀疏注意力机制等技术提升了模型在长文本任务中的性能和推理速度。

关键观点4: 提供在线体验地址和技术报告。

读者可以通过提供的在线体验地址体验Qwen新模型的功能，并通过技术报告深入了解模型的详细信息和研究成果。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

图灵人工智能 · 陶哲轩三小时超长访谈：我们如何解决难题？AI将如何重塑数学？

昨天

机器之心 · ACL 2025 Oral | 你的模型评测搭子上线：Evaluation Agent懂你更懂AI

昨天

DASOU · Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

昨天

黄建同学 · 成为一名好的提示工程师，唯一需要的提示词↓“你是一位顶级的提示词-20250716184643

2 天前

新智元 · OpenAI离职员工自曝：干了一年就润了！007压力逼到极限，AGI成宗教

2 天前

占豪 · 菲律宾再次挑衅中国的原因终于找到了！

11 月前

五星党建 · 江西宜春锻造货运物流产业“红色引擎” 让货车司机“四海有家”

10 月前

全球风口 · 前哨CES 2025观展之旅 | 开始报名

10 月前

火星宏观 · 美国 9 月非农就业人数激增，国债收益率回升，美联储降息预期回落

9 月前

ANDs · 神经定位诊断：解剖+影像+临床

9 月前