专栏名称: 知识分子
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。欢迎关注。
目录
今天看啥  ›  专栏  ›  知识分子

来自中国的大模型成最大黑马,成本仅国外三十分之一,硅谷恐慌

知识分子  · 公众号  · 科学  · 2025-01-25 12:20
    

主要观点总结

DeepSeek公司发布的大模型DeepSeek-R1在全球引发关注。该模型在基准测试中表现优秀,且训练成本极低。DeepSeek采用了一种新的训练方法,即直接强化学习,不使用大量已标注数据进行监督微调。DeepSeek-R1系列开源模型允许研究者和开发者在自己的项目中自由使用,并支持商业用途和任何形式的修改和衍生创作。该模型的出现引起了全球科技界的热议和评价不一,有人认为它展示了中国AI行业的进步和创新,也有人关注其长远影响和可能的竞争关系。

关键观点总结

关键观点1: DeepSeek-R1性能优秀且训练成本低

DeepSeek发布的大模型DeepSeek-R1在多项基准测试中表现优秀,与顶尖模型如OpenAI o1相当或略强。其训练成本极低,仅使用少量计算资源即可完成训练。

关键观点2: DeepSeek采用直接强化学习的新训练方法

DeepSeek团队采用了直接强化学习的方法训练DeepSeek-R1,这是一种不同于传统监督微调的新尝试,有助于降低训练成本和提高模型的推理能力。

关键观点3: DeepSeek-R1系列开源并受到全球关注

DeepSeek-R1系列模型开源,允许研究者和开发者自由使用,这一做法受到全球科技界的关注。一些人认为这是开源大语言模型领域的最大黑马。

关键观点4: 中国AI行业的发展引发讨论

DeepSeek的大模型引起了全球媒体的广泛关注,让人们看到了中国在AI领域的发展潜力。尽管存在对美国出口管制措施的担忧,但该大模型的出现仍然给中国的大模型发展带来了新的希望。


文章预览

   1.25 ‍‍‍‍‍‍‍ 知识分子 The Intellectual 图源:pixabay 撰文 | 张天祁 李珊珊   ●                     ●                      ● “Meta的生成式AI部门正处于恐慌中。这一切始于 Deepseek,它使得 Llama 4 在基准测试中已经落后。雪上加霜的是:那个不知名的中国公司,仅有 550 万美元的训练预算。工程师们正在疯狂地剖析 Deepseek,并试图从中复制一切可能的东西……” 一位Meta的工程师在美国科技公司员工社区Blind中这样写道。 5天前,中国的一家AI大模型创业公司DeepSeek (深度求索) 正式发布 DeepSeek-R1大模型。在发布声明中,DeepSeek表示, DeepSeek-R1在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。这一消息震动了全球AI圈。 例如,在AIME 2024数学基准测试中,DeepSeek-R1的得分率为79.8%,而OpenAI-o1的得分率为79.2%。在MATH-500基 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览