看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

价值观罗盘:如何让大模型与人类价值观对齐?

PaperWeekly  · 公众号  · 科研  · 2024-04-16 18:09
编者按:随着人工智能技术的快速发展和能力的不断增强,大模型已经逐步应用于人们的日常生活。但这同时也带来了很多新的潜在风险,进一步凸显了大模型与人类价值观对齐问题的紧迫性。然而,人工智能应该与哪些价值观进行对齐?又该如何对齐?这些问题至今还没有明确的答案。 为了解决这些挑战,微软亚洲研究院提出了价值观罗盘(Value Compass)项目,从交叉学科的角度切入,充分借鉴伦理学和社会学中的理论,以解决对价值观的定义、评测和对齐问题。本文将深度解析大模型价值观的对齐现状,并介绍微软亚洲研究院在这一领域取得的最新研究成果——基于施瓦茨人类基本价值理论的 BaseAlign 对齐算法。近年来,模型大小和预训练数据量与日俱增,使得大模型呈现出两大特点:尺度定律(scaling law)和能力涌现(emergent abilities)。在这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照