让奥特曼直呼“天才”的o3 和 o4-mini，被曝捏造事实问题严重！拓展强化学习、图像思维链等亮点成陪衬？

AI前线 · 公众号 · AI · 2025-04-17 10:46

主要观点总结

本文介绍了OpenAI发布的最新模型o3和o4-mini，它们具备自主调用并整合ChatGPT内全量工具的能力，包括网页搜索、使用Python分析上传文件及数据、深度视觉推理，甚至图像生成等。文章还提到了新模型在编程、数学、科学、视觉感知等多个领域的表现，以及它们相较于前身模型的改进。同时，也讨论了模型在实际使用中的一些问题，如虚构事实的情况。最后，活动推荐AICon 2025大会，聚焦AI技术前沿和行业落地。

关键观点总结

关键观点1: OpenAI发布新模型o3和o4-mini，具备自主调用并整合ChatGPT内全量工具的能力。

这两个新模型能够自主判断何时及如何运用工具，解决复杂问题，并以恰当的格式输出缜密详尽的解答。它们适用于从好奇的用户到高级研究人员的所有人群。

关键观点2: 新模型在编程、数学、科学、视觉感知等领域表现优异。

o3在多个基准测试中刷新了最新的SOTA，包括Codeforces、SWE-bench以及MMMU。它特别适用于需要多方面分析、答案并非一目了然的复杂问题，在图像、图表和图形等视觉任务中的表现尤其出色。

关键观点3: 新模型在实际使用中存在虚构事实的问题。

有用户反馈称，模型在执行一些技术性较强的问题时，会出现捏造细节或完全虚构的行为。这个问题在一定程度上影响了模型的准确性和可靠性。

关键观点4: OpenAI启动了支持计划，资助使用Codex CLI和OpenAI模型的项目。

官方将以每项API使用额度25,000美元的形式评估并接受资助申请。此外，OpenAI还发布了Codex CLI，这是一个可以在终端运行的轻量级编码智能体，专为发挥o3和o4-mini等模型的推理能力而设计。

文章预览

整理 | 褚杏娟今天凌晨，OpenAI 发布了 OpenAI o3 和 o4-mini ，是为回答之前思考更长时间而训练。这些推理模型首次实现了自主调用并整合 ChatGPT 内的全量工具：包括网页搜索、使用 Python 分析上传文件及数据、深度视觉推理，甚至图像生成。关键突破在于，这些模型能够自主判断何时及如何运用工具，在解决复杂问题时（通常在一分钟内）以恰当的格式输出缜密详尽的解答。 “这些是我们迄今为止发布的最智能的模型，标志着 ChatGPT 能力的一次飞跃，适用于从好奇的用户到高级研究人员的所有人群。”OpenAI 认为，这使得它们能更高效处理多维度问题，标志着 ChatGPT 向自主代理形态迈进——未来或可独立代用户完成任务。 Altman 在转发了医学博士 Derya Unutmaz 帖子后评价：“达到或接近天才水平”。这个评价显然很高，帖子下有网友不认同：能够 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[56星]Nebulla：一个用Rust实现的轻量级、高性能文-20250505123243

昨天

AI前线 · 名校硕士AI造假面试现场“社死”！差点蒙混过关，因一个基本错误被识破，面试官：软件圈很小，好自为之

昨天

爱可可-爱生活 · 【[307星]AiderDesk：为开发者打造的AI桌面应用，让-20250505121522

昨天

爱可可-爱生活 · 【[557星]RobustMQ：下一代高性能、云原生、多协议融合-20250503142056

3 天前

量子位 · 大模型终于通关《宝可梦蓝》！网友：Gemini 2.5 Pro酷爆了

3 天前

公安部交通管理局 · 闯卡逃跑反摔断腿，酒驾男：“这下损失大了”

10 月前

Kevin在纽约 · 从最近移民局统计数据看，小红书移民中介让投资人优先选择乡村项目果-20240729164632

9 月前

北京厚朴中医 · 筑基十期招生已开启

7 月前

小强热线浙江教科 · 不少人家里年后长这样！网友扛不住了：跑了8家，好像在送快递…

2 月前

海关发布 · 壁虎再也不能漫步

2 月前