文章预览
24年3月来自上海AI实验室、商汤科技、香港中文大学和复旦大学的技术报告“InternLM2 Technical Report“。 继续介绍对齐技术。 对齐 预训练之后对 LLM 进行微调,充分发挥其能力,并引导 LLM 成为有用且无害的 AI 助手。这通常称为“对齐”,通常包含两个阶段:有监督微调 (SFT) 和人类反馈中强化学习 (RLHF)。在 SFT 期间,通过高质量的指令数据对模型进行微调,使其遵循不同的人类指令。然后,采用提出的 COnditional OnLine RLHF,它应用一种条件奖励模型,可以协调不同类型的人类偏好(例如,多步推理准确性、有用性、无害性),并进行三轮在线 RLHF 以减少奖励黑客攻击。在对齐阶段,SFT 和 RLHF 利用长上下文预训练数据来保持 LLM 的长上下文能力。 SFT 用 1000 万个指令数据实例的数据集做SFT,这些实例已经过筛选,确保其有用性和无害性。数据集涵盖了各
………………………………