今天看啥  ›  专栏  ›  吴言吴语

2024-12 Tokenization和Positional Embedding

吴言吴语  · 公众号  ·  · 2024-08-11 09:50
    

文章预览

今天这篇算是临时加更,缘起是SAM2不久前发布了,工作中也在思考tokenization的问题,所以简单的把自己的思考梳理一下。 Token和Vocabulary 在自然语言处理中,所有数据都标示为token序列,而全体独特token构成一个vocabulary。原则上,可以用字节(byte)做token,那么所有字符序列(比如基于UTF-8编码的字符串)都可以用一个大小256的词表转换为序列。为什么很少有这么做的?有两个比较显然的原因: 文档长度:因为使用的token信息密度较小,会导致编码之后的序列长度较长,同样大小的上下文窗口中能够覆盖的文字序列偏小,不利于模型学习文字中更加长程的关联。另外较长的序列也提升了算力需求。 信息颗粒度和关系复杂度:因为单个token表示更小的数据“颗粒”,那么“颗粒”之间的关系更加复杂,因为涉及更多颗粒的排列组合。想象一下,本来十个单 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览