今天看啥  ›  专栏  ›  刘聪NLP

s1推理模型=数据筛选+推理预算强制,也提醒大家不要进入思维误区

刘聪NLP  · 公众号  ·  · 2025-02-07 00:00
    

文章预览

大家好,我是刘聪NLP。 随着deepseek的爆火,蒸馏推理模型的热度又被推向新高度,年前李飞飞团队的的一篇《s1: Simple test-time scaling》也火了起来。 paper: https://arxiv.org/abs/2501.19393 data: https://huggingface.co/datasets/simplescaling/s1K 这里要给大家先说几点,避免其他文章被带入到误区。 s1超过的是o1-preview,没有超过o1甚至o1-mini,有很大区别 s1的效果不敌deepseek-r1 800k数据蒸馏的32B模型,差了不少,不是媲美 s1即使使用全量59k数据的效果也没有提高很多,甚至在math上还有下降,所以核心是数据质量 1k数据是从59K数据中筛选出来的,不是直接蒸馏1K数据就可以效果很好 s1使用1k数据是节省了训练时间,但蒸馏的难点在蒸馏数据的构造上 好了,下面开始介绍s1。 s1的本质是数据筛选+推理预算强制。 有了deepseek-r1-distill之后,我们知道,在不使用RL的情况下,纯SFT也能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览