专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

llm-colosseum,评估 LLM 质量的新方法(感觉是有-20240517180859

黄建同学  · 微博  · AI  · 2024-05-17 18:08
2024-05-17 18:08 本条微博链接 llm-colosseum,评估 LLM 质量的新方法(感觉是有趣的探索思路),将LLM在《Street Fighter 3》中战斗表现作为衡量LLM的基准!#ai# 项目:github.com/OpenGenerativeAI/llm-colosseumDemo:huggingface.co/spaces/junior-labs/llm-colosseum评判标准:- 快速:这是一款实时游戏,快速决策是关键- 聪明:优秀的拳手会认为领先 50 步- 开箱即用的思维:用意想不到的动作智胜你的对手- 适应性强:从错误中吸取教训并调整策略- 弹性:在整个游戏中保持 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照