主要观点总结
本文介绍了OpenAI发布的最新模型o3和o4-mini,它们具备自主调用并整合ChatGPT内全量工具的能力,包括网页搜索、使用Python分析上传文件及数据、深度视觉推理,甚至图像生成等。文章还提到了新模型在编程、数学、科学、视觉感知等多个领域的表现,以及它们相较于前身模型的改进。同时,也讨论了模型在实际使用中的一些问题,如虚构事实的情况。最后,活动推荐AICon 2025大会,聚焦AI技术前沿和行业落地。
关键观点总结
关键观点1: OpenAI发布新模型o3和o4-mini,具备自主调用并整合ChatGPT内全量工具的能力。
这两个新模型能够自主判断何时及如何运用工具,解决复杂问题,并以恰当的格式输出缜密详尽的解答。它们适用于从好奇的用户到高级研究人员的所有人群。
关键观点2: 新模型在编程、数学、科学、视觉感知等领域表现优异。
o3在多个基准测试中刷新了最新的SOTA,包括Codeforces、SWE-bench以及MMMU。它特别适用于需要多方面分析、答案并非一目了然的复杂问题,在图像、图表和图形等视觉任务中的表现尤其出色。
关键观点3: 新模型在实际使用中存在虚构事实的问题。
有用户反馈称,模型在执行一些技术性较强的问题时,会出现捏造细节或完全虚构的行为。这个问题在一定程度上影响了模型的准确性和可靠性。
关键观点4: OpenAI启动了支持计划,资助使用Codex CLI和OpenAI模型的项目。
官方将以每项API使用额度25,000美元的形式评估并接受资助申请。此外,OpenAI还发布了Codex CLI,这是一个可以在终端运行的轻量级编码智能体,专为发挥o3和o4-mini等模型的推理能力而设计。
文章预览
整理 | 褚杏娟 今天凌晨,OpenAI 发布了 OpenAI o3 和 o4-mini ,是为回答之前思考更长时间而训练。 这些推理模型首次实现了自主调用并整合 ChatGPT 内的全量工具:包括网页搜索、使用 Python 分析上传文件及数据、深度视觉推理,甚至图像生成。关键突破在于,这些模型能够自主判断何时及如何运用工具,在解决复杂问题时(通常在一分钟内)以恰当的格式输出缜密详尽的解答。 “这些是我们迄今为止发布的最智能的模型,标志着 ChatGPT 能力的一次飞跃,适用于从好奇的用户到高级研究人员的所有人群。”OpenAI 认为,这使得它们能更高效处理多维度问题,标志着 ChatGPT 向自主代理形态迈进——未来或可独立代用户完成任务。 Altman 在转发了医学博士 Derya Unutmaz 帖子后评价:“达到或接近天才水平”。 这个评价显然很高,帖子下有网友不认同:能够
………………………………