大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

机器之心 · 公众号 · AI · 2024-06-17 12:03

文章预览

机器之心报道编辑：陈萍、杜伟通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时，AI 挑战赛的成绩显示，在所有 563 支 AI 参赛队伍中，最高分 34 分，平均分 18 分，赶上了人类选手平均水平。 AI 参与数学竞赛的主要短板是逻辑推理能力弱，证明题很难拿到完整得分点。这也是 GPT-4、LLaMA 等当前大语言模型（LLM）在需要策略和逻辑推理的任务中面临的重大挑战。其中的一大障碍是输出的准确性和可信度，尤其是在需要保证精度的数学上下文中，LLM 在推理时往往容易产生幻觉。输出结果表面上看似合理，但实际上不相关或事实不正确，最终导致不合理的推理过程。虽然像 Self-Refine 这样的重写技术有助于缓解这种倾向，但依 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博