看啥推荐读物
专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
今天看啥  ›  专栏  ›  阿里研究院

Claude 3拒答率优化:大模型从拒答到负责任回答的演进之路

阿里研究院  · 公众号  · 电商  · 2024-03-20 16:12
作者|龚瑞清、傅宏宇、袁媛 阿里研究院AI政策研究中心编者按生成式人工智能大模型(以下简称“大模型”)拒答是在模型知识能力存在不足、安全防护还待完善的过程中,保证大模型有用与合理控制模型风险之间的平衡选择。Claude 3在拒答方面有明显的改进,其本质原因是模型基础能力(尤其是推理和泛化能力)有了显著进步,能够更好地理解和判断用户提示词的真实意图,并用更符合用户期待、更正确的方式回答用户的问题。相比于外围的拦截,Claude 3更重视模型的内生安全能力,包括创建了针对易引发拒答问题的特殊数据集(Wildchat),创新性地设计“宪法人工智能”(Constitutional AI)的对齐方法,采用一套全面的多模态红队测试机制(Multimodal Policy Red-Teaming)。Claude 3的经验为大模型拒答优化提供了创新的思路与有益的借鉴。对于模型拒答的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照