专栏名称: 知识分子

《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台，致力于关注科学、人文、思想。我们将兼容并包，时刻为渴望知识、独立思考的人努力，共享人类知识、共析现代思想、共建智趣中国。欢迎关注。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

来自中国的大模型成最大黑马，成本仅国外三十分之一，硅谷恐慌

知识分子 · 公众号 · 科学 · 2025-01-25 12:20

主要观点总结

DeepSeek公司发布的大模型DeepSeek-R1在全球引发关注。该模型在基准测试中表现优秀，且训练成本极低。DeepSeek采用了一种新的训练方法，即直接强化学习，不使用大量已标注数据进行监督微调。DeepSeek-R1系列开源模型允许研究者和开发者在自己的项目中自由使用，并支持商业用途和任何形式的修改和衍生创作。该模型的出现引起了全球科技界的热议和评价不一，有人认为它展示了中国AI行业的进步和创新，也有人关注其长远影响和可能的竞争关系。

关键观点总结

关键观点1: DeepSeek-R1性能优秀且训练成本低

DeepSeek发布的大模型DeepSeek-R1在多项基准测试中表现优秀，与顶尖模型如OpenAI o1相当或略强。其训练成本极低，仅使用少量计算资源即可完成训练。

关键观点2: DeepSeek采用直接强化学习的新训练方法

DeepSeek团队采用了直接强化学习的方法训练DeepSeek-R1，这是一种不同于传统监督微调的新尝试，有助于降低训练成本和提高模型的推理能力。

关键观点3: DeepSeek-R1系列开源并受到全球关注

DeepSeek-R1系列模型开源，允许研究者和开发者自由使用，这一做法受到全球科技界的关注。一些人认为这是开源大语言模型领域的最大黑马。

关键观点4: 中国AI行业的发展引发讨论

DeepSeek的大模型引起了全球媒体的广泛关注，让人们看到了中国在AI领域的发展潜力。尽管存在对美国出口管制措施的担忧，但该大模型的出现仍然给中国的大模型发展带来了新的希望。

文章预览

1.25 ‍‍‍‍‍‍‍ 知识分子 The Intellectual 图源：pixabay 撰文 | 张天祁李珊珊 ● 　 ● 　 ● “Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek，它使得 Llama 4 在基准测试中已经落后。雪上加霜的是：那个不知名的中国公司，仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 Deepseek，并试图从中复制一切可能的东西……” 一位Meta的工程师在美国科技公司员工社区Blind中这样写道。 5天前，中国的一家AI大模型创业公司DeepSeek （深度求索）正式发布 DeepSeek-R1大模型。在发布声明中，DeepSeek表示， DeepSeek-R1在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。这一消息震动了全球AI圈。例如，在AIME 2024数学基准测试中，DeepSeek-R1的得分率为79.8%，而OpenAI-o1的得分率为79.2%。在MATH-500基 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博