微软发布Phi-3大模型，3.8B击败chatgpt

包包算法笔记 · 公众号 · · 2024-04-25 10:00

微软在4月23日发布了Phi-3，Phi-3用 3.8B 的小版本做到了 Mixtral-8x7B 一样的效果，换算到dense大约等于一个14B的水平。量化后大小约1.8G，在 iPhone15 上一秒可以出 20 个 token。小版本训练用了3.3T token 训练，更大的模型用了4.5T token 。在社交媒体上也得到了广泛的讨论。在reddit上有个有趣的帖子，Phi-3 仅用 4B大小在香蕉逻辑问题🍌中击败了GPT 3.5 Turbo。翻一下,类似弱智吧的问题: 一个香蕉上放了一个盘子，然后把盘子挪到另一个屋，香蕉会怎么样？GPT3.5：香蕉完好无损，但是会挪动位置。Phi-3：屁事没有，除非香蕉粘在了盘子上，否则还在原来的位置。能看出GPT3.5被绕进去了，Phi-3在这个环节胜出。能看出来，Phi-3确实用更小的参数实现了不错的效果。Phi-3是微软Phi系列的第4个版本：我们先回顾下4代的Phi发展路线。23年6月的Phi-1[1]，Phi1 模型参数规模 1.3B， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博