202350B 大模型时代数据“紧缺”怎么办？

吴言吴语 · 公众号 · · 2023-12-18 10:33

上周在伯克利的Visual AI Workshop上，CV泰斗Malik教授谈到文本数据和视觉数据时给出了下表：这是一个“简单粗暴”的比较，将小说的文字数量和对应的电影的帧数放在一起，可以看到100K左右的文字(token)对应了40M上下的视觉token，两个数量级的差异，这是第一个观察。另一个观察是Llama-2训练使用了2T的token，据说GPT-4训练使用了13T的token，基本和Naveen Rao在下面推文中说的一样，当前大语言模型训练使用的互联网级别的文本语料大约在10T量级。而假如把Youtube上全部的视频(上表中的94亿分钟)转换为token，将是接近3000T的token总量，也是比文本语料的10T高两个量级。Naveen的推文问了一个很有意思的问题，已知OpenAI盈利一亿美金，从用户那里每百万token收费20美金，那么意味着它们已经生成了5T左右的输出token，和训练集规模相当了，看到将要遇到的问题了吗？其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

WBusiness商业 · 欠租、门店全关，又一知名火锅品牌阵亡

5 月前

首席商业评论 · 关于青年失业率的三个误解

11 月前

战略前沿技术 · 美军如何变革以实现攻防一体应对导弹威胁

3 年前

槽值 · 推荐这部17年前的喜剧：你最落魄时，也是最强的时候

3 年前

雪球 · 【#华领资产4名高管被刑拘#，35亿仅剩1300元】根据上海公安-20191209232220

4 年前