看啥推荐读物

专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Claude 3拒答率优化：大模型从拒答到负责任回答的演进之路

阿里研究院 · 公众号 · 电商 · 2024-03-20 16:12

作者｜龚瑞清、傅宏宇、袁媛阿里研究院AI政策研究中心编者按生成式人工智能大模型（以下简称“大模型”）拒答是在模型知识能力存在不足、安全防护还待完善的过程中，保证大模型有用与合理控制模型风险之间的平衡选择。Claude 3在拒答方面有明显的改进，其本质原因是模型基础能力（尤其是推理和泛化能力）有了显著进步，能够更好地理解和判断用户提示词的真实意图，并用更符合用户期待、更正确的方式回答用户的问题。相比于外围的拦截，Claude 3更重视模型的内生安全能力，包括创建了针对易引发拒答问题的特殊数据集(Wildchat)，创新性地设计“宪法人工智能”（Constitutional AI）的对齐方法，采用一套全面的多模态红队测试机制（Multimodal Policy Red-Teaming）。Claude 3的经验为大模型拒答优化提供了创新的思路与有益的借鉴。对于模型拒答的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博