看啥推荐读物

专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ICLR 2024 | 知易行难：探索大模型价值观的全新动态评测范式

PaperWeekly · 公众号 · 科研 · 2024-04-09 13:07

©PaperWeekly 原创 · 作者 | 段士童单位 | 复旦大学硕士研究生研究方向 | 大语言模型价值观对齐摘要近年来，大型语言模型（LLMs）取得了前所未有的突破。然而，LLMs 在日常应用中可能会生成不道德内容，从而引发社会风险。虽然当前研究对特定问题如偏见、毒性等内容进行了广泛研究，但从道德哲学的角度探讨 LLMs 的内在价值观的工作仍然较少。本研究通过道德基础理论深入探讨 LLMs 的伦理价值，并提出了一种新的提示生成算法 DeNEVIL，旨在动态挖掘 LLMs 的价值观可能存在弱点并以生成方式揭示伦理违规行为，从而测试其潜在的价值倾向。在此基础上，我们构建了 MoralPrompt，一个包含 2,397 个提示的高质量数据集，涵盖 500 多个价值原则，并对一系列 LLMs 的内在价值进行了基准测试。我们发现大多数模型存在价值观不对齐问题，需要进一步的伦理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博