今天看啥  ›  专栏  ›  数字经济与社会

Claude 3拒答率优化:大模型从拒答到负责任回答的演进之路

数字经济与社会  · 公众号  ·  · 2024-04-10 21:59
作者|龚瑞清、傅宏宇、袁媛 阿里研究院AI政策研究中心编者按生成式人工智能大模型(以下简称“大模型”)拒答是在模型知识能力存在不足、安全防护还待完善的过程中,保证大模型有用与合理控制模型风险之间的平衡选择。Claude 3在拒答方面有明显的改进,其本质原因是模型基础能力(尤其是推理和泛化能力)有了显著进步,能够更好地理解和判断用户提示词的真实意图,并用更符合用户期待、更正确的方式回答用户的问题。相比于外围的拦截,Claude 3更重视模型的内生安全能力,包括创建了针对易引发拒答问题的特殊数据集(Wildchat),创新性地设计“宪法人工智能”(Constitutional AI)的对齐方法,采用一套全面的多模态红队测试机制(Multimodal Policy Red-Teaming)。Claude 3的经验为大模型拒答优化提供了创新的思路与有益的借鉴。对于模型拒答的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照