今天看啥  ›  专栏  ›  吴言吴语

2024-04 数据颗粒度

吴言吴语  · 公众号  ·  · 2024-03-04 12:44
今天的主题受最近的好几件事启发:新近从OpenAI离职的Andrej在油管上放出了新的视频:讨论GPT的Tokenizer (https://youtu.be/zduSFxRajkE?si=AjWnHC3Sl9sOHDiu)。OpenAI的Sora在技术报告中提到一个“新”名词:spatiotemporal patch,时空块。近几个月出现不少多模态大模型的论文,不同模态有专用的编码器或者解码器用于输入和输出数据的处理。自己的工作也涉及数据表示的思考。那就趁机聊一聊关于数据的一个重要概念:颗粒度。先放一个Andrej的吐槽贴,大家品一品。从自然语言处理开始在经典的NLP领域,原始的文本通常要经过几个常见的预处理步骤:数据清洗:主要是过滤掉文本中非内容的部分,比如无关的格式信息和特殊字符串,互联网数据中包含的各种网页代码,排版信息等等。这一步的目的是基于规则去除原始文本中我们认为“有效信息量”接近0的部分。Tokeni ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照