专栏名称: 自动驾驶之星
自动驾驶之星,是一个以自动驾驶量产交流为主的社区。这里有自动驾驶量产第一线的前沿动态,有一群奋斗在自动驾驶量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
今天看啥  ›  专栏  ›  自动驾驶之星

【论文日报】LLM合集:tule开源TÜLU 3,并全面开源最先进llm的post-training框架

自动驾驶之星  · 公众号  ·  · 2024-11-26 09:52
    

文章预览

1. TÜLU 3: Pushing Frontiers in Open Language Model Post-Training 点击下方 卡片 ,关注“ 自动驾驶之星 ” 这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入 语言模型的后训练技术被应用于优化行为并解锁最近一系列语言模型的新技能,但开源的后训练方法却落后于非开源技术。训练数据和后训练同时是这个谜题中最重要的部分和最缺乏透明度的部分。为了弥补这一差距,我们推出了TÜLU 3,这是一系列完全开放的最先进后训练模型,以及其数据、代码和训练配方,作为现代后训练技术的全面指南。TÜLU 3基于Llama 3.1基础模型构建,其表现超过了Llama 3.1的指令版本、Qwen 2.5、Mistral,甚至像GPT-4o-mini和Claude 3.5-Haiku这样的封闭模型。我们的模型训练算法包括监督微调(SFT)、直接偏好优化(DPO),以及我们称之为可验证奖励强化学习(RLVR)的新方法。通过TÜLU ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览