注册登录

看啥推荐读物

专栏名称: 包包算法笔记

数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

中国银行 · 母亲节｜惟愿时光温柔，陪你岁岁如今· 4 天前

中国银行 · 中国银行助力按下新能源汽车产业发展“快进键”· 2 天前

中国工商银行 · 工行全方位发力，助力新质生产力构筑“金融引擎”· 4 天前

中国银行 · 中国银行举办塞尔维亚人民币清算行揭牌仪式 ...· 6 天前

浙商银行微讯 · 我行荣获浙江省银行机构“零钱包”创意设计大赛 ...· 6 天前

今天看啥 › 专栏 › 包包算法笔记

浅谈Llama3

包包算法笔记 · 公众号 · · 2024-04-21 21:12

知乎: https://www.zhihu.com/question/653373334/answer/3471466524Llama3的发布是大模型开源届的大事，蹭下热度，在这里谈下有关Llama3、大模型开源与闭源以及合成数据的一些个人看法。LLAMA-3的基本情况模型结构与LLAMA-2相比没有大的变动，主要变化一点在于Token词典从LLAMA-2的32K拓展到了128K，以增加编码效率；另外一点是引入了Grouped Query Attention (GQA)，这可以减少推理过程中的KV缓存大小，增加推理效率；还有一点是输入上下文长度从4K拓展到了8K，这个长度相比竞品来说仍然有点短。最重要的改变是训练数据量的极大扩充，从LLAMA-2的2T Tokens，扩展了大约8倍到了15T Tokens，其中代码数据扩充了4倍，这导致LLAMA-3在代码能力和逻辑推理能力的大幅度提升。15 T token数据那是相当之大了，传闻中GPT 4是用了13T的Token数据。LLAMA-3分为大中小三个版本，小模型参数规模8B，效果 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

中国银行 · 母亲节｜惟愿时光温柔，陪你岁岁如今

4 天前

中国银行 · 中国银行助力按下新能源汽车产业发展“快进键”

2 天前

中国工商银行 · 工行全方位发力，助力新质生产力构筑“金融引擎”

4 天前

中国银行 · 中国银行举办塞尔维亚人民币清算行揭牌仪式葛海蛟出席活动并致辞

6 天前

浙商银行微讯 · 我行荣获浙江省银行机构“零钱包”创意设计大赛最佳设计奖

6 天前

平安武汉 · 【偷电瓶养你？#情侣配合半月内偷10多台电动车被抓#】“我决定干-20231020101001

6 月前

沧州市中心医院医疗集团 · 暑假“整牙热” 低龄患者增多

8 月前

中央纪委国家监委网站 · 团伙作案损公肥私、玩障眼法套取补贴……守仓者缘何沦为“硕鼠”

2 年前

放心选 · 省心省力又省钱的香港卡，肉身赴港半天搞定！

4 年前

侃侃跨境那些事儿 · 那个没有性生活的亚马逊女人

5 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号