今天看啥  ›  专栏  ›  斌叔OKmath

(转) GPT-4.5 赶鸭子上架啦!直接说结论,某些方面甚至连-20250228131729

斌叔OKmath  · 微博  ·  · 2025-02-28 13:17
    

文章预览

2025-02-28 13:17 本条微博链接 (转) GPT-4.5 赶鸭子上架啦! 直接说结论,某些方面甚至连自家的推理模型 OpenAI-o3-mini 都没打过。具体看图1,仅在下面三个指标中领先了 o3-mini。而GPQA,AIME‘24, SWE-Bench 完全打不过(甚至编码被o3-mini领先了快一倍 38%vs61%) 跟人类对打方面,领先了56%-63%的测试者。具体看图2. 以及SimpleQA (这是个问答类型的测试),幻觉程度有所下降,准确率有所提升。 但综合来看,并不是个全面领先的模型。更 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览