看啥推荐读物
专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

量子位  · 公众号  · AI  · 2024-03-28 12:38
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI“最强”开源大模型之争,又有新王入局:大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:它在基准测试中击败了此前所有开源模型。包括同为混合专家模型的Grok-1和Mixtral。新王搅局,迅速引发了开源社区的热议。毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿。就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍。△DBRX vs Llama2-70B另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,也就是Chinchilla定律推荐量的18倍。网友们的第一反应be like:首席科学家:打赌输了就把头发染蓝来看DBRX的具体细节。DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。为了训练DBRX,Databr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照