讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

InternLM2大模型的技术细节(2)

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-01 00:16
    

文章预览

24年3月来自上海AI实验室、商汤科技、香港中文大学和复旦大学的技术报告“InternLM2 Technical Report“。 继续介绍对齐技术。 对齐 预训练之后对 LLM 进行微调,充分发挥其能力,并引导 LLM 成为有用且无害的 AI 助手。这通常称为“对齐”,通常包含两个阶段:有监督微调 (SFT) 和人类反馈中强化学习 (RLHF)。在 SFT 期间,通过高质量的指令数据对模型进行微调,使其遵循不同的人类指令。然后,采用提出的 COnditional OnLine RLHF,它应用一种条件奖励模型,可以协调不同类型的人类偏好(例如,多步推理准确性、有用性、无害性),并进行三轮在线 RLHF 以减少奖励黑客攻击。在对齐阶段,SFT 和 RLHF 利用长上下文预训练数据来保持 LLM 的长上下文能力。 SFT 用 1000 万个指令数据实例的数据集做SFT,这些实例已经过筛选,确保其有用性和无害性。数据集涵盖了各 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览