专栏名称: 吴言吴语

个人的胡思乱想，胡言乱语。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

相关文章推荐

斑马消费 · 5块钱喝小罐茶，没有智商税？ · 20 小时前

浙江省网商协会 · 上热搜了！快手要求员工每天刷1小时短视频 · 昨天

上海经信委 · Google发布全新AR眼镜，浦东硬科技成果 ... · 昨天

乌鸦预告片 · 拍超英全是8分+！这次DC有救了 · 2 天前

仙桃电视台 · 全国唯一！仙桃这家企业打破国外垄断 · 2 天前

今天看啥 › 专栏 › 吴言吴语

2024-12 Tokenization和Positional Embedding

吴言吴语 · 公众号 · · 2024-08-11 09:50

文章预览

今天这篇算是临时加更，缘起是SAM2不久前发布了，工作中也在思考tokenization的问题，所以简单的把自己的思考梳理一下。 Token和Vocabulary 在自然语言处理中，所有数据都标示为token序列，而全体独特token构成一个vocabulary。原则上，可以用字节(byte)做token，那么所有字符序列(比如基于UTF-8编码的字符串)都可以用一个大小256的词表转换为序列。为什么很少有这么做的？有两个比较显然的原因：文档长度：因为使用的token信息密度较小，会导致编码之后的序列长度较长，同样大小的上下文窗口中能够覆盖的文字序列偏小，不利于模型学习文字中更加长程的关联。另外较长的序列也提升了算力需求。信息颗粒度和关系复杂度：因为单个token表示更小的数据“颗粒”，那么“颗粒”之间的关系更加复杂，因为涉及更多颗粒的排列组合。想象一下，本来十个单 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

斑马消费 · 5块钱喝小罐茶，没有智商税？

20 小时前

斑马消费 · 5块钱喝小罐茶，没有智商税？

20 小时前

浙江省网商协会 · 上热搜了！快手要求员工每天刷1小时短视频

昨天

浙江省网商协会 · 上热搜了！快手要求员工每天刷1小时短视频

昨天

上海经信委 · Google发布全新AR眼镜，浦东硬科技成果登上全球XR主舞台

昨天

上海经信委 · Google发布全新AR眼镜，浦东硬科技成果登上全球XR主舞台

昨天

乌鸦预告片 · 拍超英全是8分+！这次DC有救了

2 天前

乌鸦预告片 · 拍超英全是8分+！这次DC有救了

2 天前

仙桃电视台 · 全国唯一！仙桃这家企业打破国外垄断

2 天前

仙桃电视台 · 全国唯一！仙桃这家企业打破国外垄断

2 天前

阜阳交通广播 · 33岁男子疑因思念亡妻殉情，绝笔信令人心痛！

1 月前

广东药监 · “五一”特别篇④ | 牙膏功效有据可查

2 周前