看啥推荐读物
专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

GPT-4V被超越?SEED-Bench多模态大模型测评基准更新

将门创投  · 公众号  · 科技创业  · 2023-12-15 09:02
大语言模型(LLM)的蓬勃发展离不开健全的评测体系,而对于多模态大语言模型(MLLM)而言,一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab和港中深推出了SEED-Bench系列测评基准,有效弥补了这一缺陷,目前已成为测评MLLM的主流基准之一。SEED-Bench评测基准在2023年7月首次发布,它包含了19K道经过人工标注正确答案的选择题,涵盖了图像和视频的12个评估维度;并在11月发布了v2版本,扩充至24K选择题和27个维度!🤩 值得一提的是,Hugging Face CEO Clément Delangue也对在线榜单进行了点赞。📖 技术报告 SEED-Bench-1:https://arxiv.org/abs/2307.16125 SEED-Bench-2:https://arxiv.org/abs/2311.17092 🤗 测评数据 SEED-Bench-1:https://huggingface.co/datasets/AILab-CVC/SEED-Bench SEED-Bench-2:https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2 🔗 项目主页:https://github.com/AILab-C ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照