看啥推荐读物
专栏名称: 吴言吴语
个人的胡思乱想,胡言乱语。
目录
相关文章推荐
今天看啥  ›  专栏  ›  吴言吴语

202350B 大模型时代数据“紧缺”怎么办?

吴言吴语  · 公众号  ·  · 2023-12-18 10:33
上周在伯克利的Visual AI Workshop上,CV泰斗Malik教授谈到文本数据和视觉数据时给出了下表:这是一个“简单粗暴”的比较,将小说的文字数量和对应的电影的帧数放在一起,可以看到100K左右的文字(token)对应了40M上下的视觉token,两个数量级的差异,这是第一个观察。另一个观察是Llama-2训练使用了2T的token,据说GPT-4训练使用了13T的token,基本和Naveen Rao在下面推文中说的一样,当前大语言模型训练使用的互联网级别的文本语料大约在10T量级。而假如把Youtube上全部的视频(上表中的94亿分钟)转换为token,将是接近3000T的token总量,也是比文本语料的10T高两个量级。Naveen的推文问了一个很有意思的问题,已知OpenAI盈利一亿美金,从用户那里每百万token收费20美金,那么意味着它们已经生成了5T左右的输出token,和训练集规模相当了,看到将要遇到的问题了吗?其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照