深度学习、机器学习、大数据技术社区,分享各类算法原理与源码、数据处理、可视化、爬虫、竞赛开源代码等资源。 如需推送广告合作请联系微个人号: hai299014
目录
相关文章推荐
今天看啥  ›  专栏  ›  机器学习AI算法工程

大模型 Token 究竟是啥:图解大模型Token

机器学习AI算法工程  · 公众号  ·  · 2025-06-05 10:00
    

文章预览

向AI转型的程序员都关注公众号 机器学习AI算法工程 前几天,一个朋友问我:“ 大模型 中的  Token  究竟是什么?” 这确实是一个很有代表性的问题。许多人听说过 Token 这个概念,但未必真正理解它的作用和意义。思考之后,我决定写篇文章,详细解释这个话题。 我说:像  DeepSeek  和  ChatGPT  这样的超大语言模型,都有一个“刀法精湛”的小弟—— 分词器( Tokenizer ) 。 当 大模型 接 收到一段文字 。 会让 分词器 把它 切成很多个小块 。 这切出来的每一个小块就叫做一个  Token 。 比如这段话( 我喜欢唱、跳、Rap和篮球 ),在大模型里可能会被切成这个样子。 像 单个汉字 ,可能是一个  Token 。 两个汉字 构成的 词语 ,也可能是一个  Token 。 三个字 构成的 常见短语 ,也可能是一个  Token 。 一个标点符号 ,也可能是一个  Token 。 一个单 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览