看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ICLR 2024 | 知易行难:探索大模型价值观的全新动态评测范式

PaperWeekly  · 公众号  · 科研  · 2024-04-09 13:07
©PaperWeekly 原创 · 作者 | 段士童单位 | 复旦大学硕士研究生研究方向 | 大语言模型价值观对齐摘要近年来,大型语言模型(LLMs)取得了前所未有的突破。然而,LLMs 在日常应用中可能会生成不道德内容,从而引发社会风险。虽然当前研究对特定问题如偏见、毒性等内容进行了广泛研究,但从道德哲学的角度探讨 LLMs 的内在价值观的工作仍然较少。本研究通过道德基础理论深入探讨 LLMs 的伦理价值,并提出了一种新的提示生成算法 DeNEVIL,旨在动态挖掘 LLMs 的价值观可能存在弱点并以生成方式揭示伦理违规行为,从而测试其潜在的价值倾向。在此基础上,我们构建了 MoralPrompt,一个包含 2,397 个提示的高质量数据集,涵盖 500 多个价值原则,并对一系列 LLMs 的内在价值进行了基准测试。我们发现大多数模型存在价值观不对齐问题,需要进一步的伦理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照