InternLM2大模型的技术细节（2）

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-01 00:16

文章预览

24年3月来自上海AI实验室、商汤科技、香港中文大学和复旦大学的技术报告“InternLM2 Technical Report“。继续介绍对齐技术。对齐预训练之后对 LLM 进行微调，充分发挥其能力，并引导 LLM 成为有用且无害的 AI 助手。这通常称为“对齐”，通常包含两个阶段：有监督微调 (SFT) 和人类反馈中强化学习 (RLHF)。在 SFT 期间，通过高质量的指令数据对模型进行微调，使其遵循不同的人类指令。然后，采用提出的 COnditional OnLine RLHF，它应用一种条件奖励模型，可以协调不同类型的人类偏好（例如，多步推理准确性、有用性、无害性），并进行三轮在线 RLHF 以减少奖励黑客攻击。在对齐阶段，SFT 和 RLHF 利用长上下文预训练数据来保持 LLM 的长上下文能力。 SFT 用 1000 万个指令数据实例的数据集做SFT，这些实例已经过筛选，确保其有用性和无害性。数据集涵盖了各 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博