用GPT-2监督GPT-4，防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉

机器学习研究组订阅 · 公众号 · AI · 2023-12-15 20:14

就在刚刚，OpenAI首席科学家Ilya领衔的超级对齐团队，发布了成立以来的首篇论文！团队声称，已经发现了对超人类模型进行实证对齐的新研究方向。未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。OpenAI的最新研究做了一个简单的类比：小模型可以监督大模型吗？论文地址：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf经验证，通过GPT-2可以激发出GPT-4的大部分能力（接近GPT-3.5的性能），甚至可以正确地泛化到小模型失败的难题上。OpenAI此举开辟了一个新的研究方向，让我们能够直接解决一个核心挑战，即调整未来的超级AI模型，同时在迭代的实证中取得进展。为了便于大家理解，超级对齐共同负责人Jan Leike，也发表了对这项研究的简要概括：人类如何控制比自己更智能的AI？OpenAI认为，超级智能（比人类聪明得 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博