今天看啥  ›  专栏  ›  调研纪要

坐稳扶好

调研纪要  · 公众号  ·  · 2025-04-28 23:21
    

文章预览

近期DeepSeek-R2的消息应该是国内小作文“出口转内销”。CoT check一下: 1)参数1.2T: 既然不是671B,那说明“V4”基础模型已经出来了而且参数是V3(671B)的2倍。现在头部海外发布的主流模型基本都是千亿参数, DS似乎没有充足的理由将参数扩大这么大,毕竟Scaling Law某种程度上放缓。 2)5.2PB训练数据: 1PB=1024TB,而近期看到的模型训练数据最大的是Llama 4的40T,5PB就约等于是5000TB, 虽然提到增加了行业垂类数据,这还是有点大的离谱。 毕竟数据要的是高质量,不是无脑堆。 3)视觉能力: 这个倒是有可能实现,毕竟最近o3和o4-mini也是能视觉推理 的。 4)完全抛弃NV卡: 可能性不大, 之前DS开源周全都是CUDA生态的优化,应该不会这么快就抛弃累积的优势。当然国产化进程一定是在加速。 我们认为DS-R2在5月发布差不多,不排除五一。大家坐稳扶好, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览