看啥推荐读物
专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

微软发布Phi-3大模型,3.8B击败chatgpt

包包算法笔记  · 公众号  ·  · 2024-04-25 10:00
微软在4月23日发布了Phi-3,Phi-3用 3.8B 的小版本做到了 Mixtral-8x7B 一样的效果,换算到dense大约等于一个14B的水平。量化后大小约1.8G, 在 iPhone15 上一秒可以出 20 个 token。小版本训练用了3.3T token 训练,更大的模型用了4.5T token 。在社交媒体上也得到了广泛的讨论。在reddit上有个有趣的帖子,Phi-3 仅用 4B大小在 香蕉逻辑问题🍌中击败了GPT 3.5 Turbo。翻一下,类似弱智吧的问题: 一个香蕉上放了一个盘子,然后把盘子挪到另一个屋,香蕉会怎么样?GPT3.5:香蕉完好无损,但是会挪动位置。Phi-3:屁事没有,除非香蕉粘在了盘子上,否则还在原来的位置。能看出GPT3.5被绕进去了,Phi-3在这个环节胜出。能看出来,Phi-3确实用更小的参数实现了不错的效果。Phi-3是微软Phi系列的第4个版本:我们先回顾下4代的Phi发展路线。23年6月的Phi-1[1],Phi1 模型参数规模 1.3B, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照