📚 残梦三生

记录技术成长,分享学习心得

← 返回首页

什么是 Token?—— 大语言模型的"基本语言单位"

分类:AI/LLM | 日期:2026-05-25

一、Token 是什么

Token 是大语言模型处理文本的最小语义单元。它不是"字符",也不是"单词",而是介于两者之间的一种粒度。

举个例子,中文句子 "我喜欢吃苹果" 在不同分词策略下可能被切分为:

方案一(单字): 我 / 喜 / 欢 / 吃 / 苹 / 果
方案二(词级): 我 / 喜欢 / 吃 / 苹果
方案三(子词): 我 / 喜欢 / 吃 / 苹 / 果

现代大模型(如 GPT、Claude 系列)普遍采用 BPE(Byte Pair Encoding) 子词分词算法,高频词整体保留(如 "喜欢"),低频词拆成子词(如 "苹果" 可能被拆成 "苹" + "果")。英文中,常见词如 "the""language" 各占一个 token,而罕见词如 "tokenization" 可能被拆成 "token" + "ization"

二、为什么 Token 如如此重要

1. 计费单位 —— 几乎所有 LLM API 都按 token 数量计费(输入 + 输出),理解 token 就是在理解成本。

2. 上下文窗口 —— 模型的"记忆容量"以 token 衡量。比如 Claude 支持 200K token 的上下文窗口(最长),大约可以容纳一本中等篇幅的小说。

3. 速度与延迟 —— 模型逐 token 生成文本,token 数量和生成速度直接相关。

4. 多语言差异显著 —— 不同语言的"token 效率"差异巨大。同一段意思:

这意味着中文在 LLM 调用成本上通常比英文更经济

三、Token 的换算规则

一个粗略的经验法则:

语言 1 个 Token 约等于
英文 约 0.75 个单词,或约 4 个字符
中文 约 0.5-0.7 个汉字
代码 约 0.4-0.6 个有效字符(空格和缩进也算)

例如,一段 1500 字的英文文章大约是 2000 tokens,而同样内容的 1500 字中文文章大约是 1000-1200 tokens

四、Token 是怎么生成的

分词器(Tokenizer)的工作流程大致如下:

原始文本 → 标准化(Unicode 规范化) → 分词 → 映射到 Token ID → 送入模型

每个 token 对应一个唯一的整数 ID,模型内部通过 Embedding 层 将这个 ID 映射为高维向量,再送入 Transformer 网络进行计算。

五、实际开发中需要注意的点

六、总结

Token 是理解和优化 LLM 应用的基础概念。它影响成本、性能、上下文容量,以及多语言策略的选择。掌握它,是做好 LLM 工程的第一步。