今天看啥  ›  专栏  ›  魔搭ModelScope社区

WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

魔搭ModelScope社区  · 公众号  ·  · 2025-03-28 14:08
    

文章预览

00 导语 近日 ,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。 论文链接: https://arxiv.org/pdf/2503.05244 项目地址: https://github.com/X-PLUG/WritingBench 01 WritingBench项目背景 现有AI写作评估多局限于单一领域和短文本,大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外,传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。 数据基建 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览