今天看啥  ›  专栏  ›  包包算法笔记

浅谈Llama3

包包算法笔记  · 公众号  ·  · 2024-04-21 21:12
知乎: https://www.zhihu.com/question/653373334/answer/3471466524Llama3的发布是大模型开源届的大事,蹭下热度,在这里谈下有关Llama3、大模型开源与闭源以及合成数据的一些个人看法。LLAMA-3的基本情况模型结构与LLAMA-2相比没有大的变动,主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K,以增加编码效率;另外一点是引入了Grouped Query Attention (GQA),这可以减少推理过程中的KV缓存大小,增加推理效率;还有一点是输入上下文长度从4K拓展到了8K,这个长度相比竞品来说仍然有点短。最重要的改变是训练数据量的极大扩充,从LLAMA-2的2T Tokens,扩展了大约8倍到了15T Tokens,其中代码数据扩充了4倍,这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15 T token数据那是相当之大了,传闻中GPT 4是用了13T的Token数据。LLAMA-3分为大中小三个版本,小模型参数规模8B,效果 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照