专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
目录
相关文章推荐
今天看啥  ›  专栏  ›  PaperAgent

OpenAI o1很强,也能被玩坏!

PaperAgent  · 公众号  ·  · 2024-09-13 11:33
    

文章预览

OpenAI草莓Q*项目终于发布了, OpenAI o1 在具有挑战性的推理基准上 遥遥领先 于GPT-4o,即使在一些基准上超过了 人类PhD 水平,也能被玩坏 实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现 OpenAI o1思考一个“句子编写”问题,足足花费 92s ,经历了漫长的thinking过程: 识别单词模式 映射单词关系 识别押韵模式 ... 权衡各种模式 编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。 https://x.com/dicnunz/status/1834288190502428867 经典问题,OpenAI o1思考了5s, 9.11比9.8大 ,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ing 最后来一个有挑战的问题,“ 统计 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览