大模型底层基石：Token分词技术与词向量构建的深度解析

程序员糖仔

1054人浏览 · 2025-10-06 09:30:00

程序员糖仔 · 2025-10-06 09:30:00 发布

在大语言模型（LLM）的技术栈中，Token分词与词向量构建是连接人类自然语言与模型数值计算的核心桥梁。它们不仅决定了模型“读懂”文本的基础能力，更直接影响模型训练效率、语义理解精度与泛化性能。本文将从技术原理、实践选择、典型案例等维度，系统拆解Token分词的核心方法与词向量的生成逻辑，并结合最新模型实践补充技术细节，帮助读者深入理解大模型处理文本的底层逻辑。

在这里插入图片描述

一、Token分词：将文本拆解为模型可理解的“语言单元”

大模型处理文本的第一步，是将连续的原始文本转化为离散的、可计算的Token单元——这一过程被称为Token分词。这些单元既可以是完整单词（如英文中的“student”）、子词（如中文的“学习”拆分为“学”“习”，或英文“unhappiness”拆分为“un”“happiness”），也可以是单个字符，具体取决于模型的分词策略。

以英文句子“I am a student”为例，经过基础分词处理后，会被拆解为4个独立Token：

“I”
“am”
“a”
“student”

此时的Token以字符串形式存在（可表示为Tokens=["I","am","a","student"]），尚未具备数值属性，无法直接用于模型的矩阵计算。而Token分词的核心价值正在于：避免直接输入完整字符导致的信息碎片化（如单个字母“s”无独立语义），同时通过合理的单元拆分减少词汇稀疏性（如未见过的“anti-inflammatory”可通过子词组合理解），最终为模型高效学习语义奠定基础。

如何科学选择Token分词方法？

Token分词方法的选择并非“通用最优”，而是需要结合具体场景的约束条件。以下6个核心因素决定了分词策略的适用性，也是工程实践中必须权衡的关键点：

影响因素	核心考量	典型场景示例
任务需求	不同NLP任务对分词粒度的要求差异显著：粗粒度（如单词级）适合捕捉整体语义，细粒度（如字符级）适合细节信息提取	- 情感分析：需单词级分词捕捉“happy”“sad”等情感词 - 命名实体识别（NER）：需字符级分词识别“李华”“北京”等专有名词的边界
语言特性	语言的书写规则直接决定分词难度：空格分隔语言（英、法、德等）可简化基础拆分，无空格语言（中、日、韩等）需依赖语义规则	- 英文：可先按空格拆分，再优化子词 - 中文：需通过词典（如jieba分词）或模型（如BERT的中文分词）识别词边界
模型适配性	预训练模型通常绑定特定分词方法，若更换分词策略，可能导致预训练学到的语义信息失效	- BERT系列模型默认使用WordPiece分词 - GPT-2/3使用BPE（Byte-Pair Encoding）分词 - 多语言模型（如mT5）常用SentencePiece分词
上下文关联性	长文本处理中，分词方法需能保留上下文依赖关系，避免拆分破坏语义连贯性	处理长文档摘要时，子词级分词需确保“人工智能”不被拆分为“人工”“智能”，否则可能丢失“AI”的整体概念
计算效率	大规模数据集（如万亿级语料）对分词速度和内存消耗敏感，需在粒度与效率间平衡	- 字符级分词速度快但内存占用高（词汇表仅26个字母+符号） - 单词级分词内存低但对未登录词（OOV）鲁棒性差
可解释性要求	部分领域需明确分词结果的语义可追溯性，避免过度拆分导致术语歧义	医疗领域处理“冠状动脉粥样硬化”时，需保证术语完整，不可拆分为“冠状”“动脉”等子词，否则影响诊断相关任务的准确性

综上，选择分词方法时需形成“任务-语言-模型”的闭环匹配：例如中文情感分析任务，若使用BERT模型，则应采用BERT绑定的WordPiece分词，而非独立的jieba分词，以确保模型输入格式与预训练逻辑一致。

典型大模型的Token分词实践

不同厂商的大模型因设计目标（如多语言支持、长文本处理）不同，选择了差异化的子词级分词方案，以下为国内主流模型的实践细节：

1. 阿里云Qwen模型：基于SentencePiece的灵活子词分词

Qwen模型（通义千问系列）以多语言支持和长上下文处理为核心优势，其分词方案选择了SentencePiece工具——一种无监督的、不依赖空格的分词技术。该技术的核心逻辑是：将文本视为连续字符序列，通过统计频率合并高频字符对，最终生成子词集合（既包含完整单词，也包含拆分后的子词）。

例如，对于英文“unhappiness”，SentencePiece可能拆分为“un”“happiness”；对于中文“人工智能技术”，可能拆分为“人工”“智能”“技术”。这种方案的优势在于：

对无空格语言（如中文、日语）适配性强，无需预先定义词边界；
处理未登录词（如“元宇宙”“区块链”）时，可通过子词组合理解语义，泛化能力强；
支持自定义词汇表大小（如Qwen-7B的词汇表约为15万），可根据模型规模平衡精度与效率。

2. 智谱GLM模型：基于BPE的子词分词优化

智谱GLM系列模型（如GLM-4）采用Byte Pair Encoding（BPE）分词技术，这是一种从字符级逐步合并高频对的无监督算法。其核心步骤为：

初始化词汇表为文本中所有单个字符（如中文的“学”“习”，英文的“a”“b”）；
统计所有字符对的出现频率，合并频率最高的字符对（如“学”+“习”=“学习”），将新子词加入词汇表；
重复步骤2，直到词汇表达到预设大小（如GLM-4的词汇表约为10万）。

BPE的优势在于：

能平衡词汇表大小与语义完整性：既避免单词级分词的OOV问题，又避免字符级分词的语义碎片化；
对拼音文字（如英文、西班牙语）处理效率高，合并逻辑可直接复用字符频率统计结果；
可通过调整合并次数控制子词粒度，适配不同模型规模（如小模型用小词汇表，大模型用大词汇表）。

3. 两者的核心差异：子词技术的实现细节

尽管Qwen与GLM均采用子词级分词，但技术细节的差异导致其适用场景不同：

处理空格的逻辑：SentencePiece将文本视为“无空格序列”，可统一处理多语言；BPE默认依赖空格拆分基础单元，对无空格语言需额外预处理（如中文需先按字符拆分）；
词汇表灵活性：SentencePiece支持动态调整词汇表大小，且可直接处理原始文本（无需预处理）；BPE需先统计字符频率，调整词汇表需重新训练分词器；
多语言支持：SentencePiece在多语言模型中更常用（如Qwen支持100+语言），BPE更适合单语言或少数语言的模型（如GLM早期版本以中文优化为主）。

二、词向量（Embedding）：为Token赋予“数值语义”

经过Token分词后，模型得到的仍是字符串形式的单元，无法直接用于神经网络的数值计算。词向量（Embedding）的核心作用，就是将这些离散的Token映射到高维稠密向量空间，让每个Token拥有“数值身份”——向量的维度、数值分布不仅代表Token本身的语义，还能反映其与其他Token的关联关系（如“国王”与“王后”的向量差异，近似于“男人”与“女人”的差异）。

这一转换过程由模型的嵌入层（Embedding Layer） 完成。以GPT-3为例，其嵌入层将每个Token映射到12288维的向量空间；若输入为前文的“I am a student”（4个Token），则嵌入层会输出一个4×12288的矩阵，作为Transformer编码器（Encoder）的输入。

在这里插入图片描述

词向量的核心原理：嵌入矩阵（Embedding Matrix）

嵌入层的本质是一个巨大的“数值查表工具”——即嵌入矩阵。它存储了模型词汇表中所有Token的向量表示，是连接Token ID与高维向量的关键组件。理解嵌入矩阵的结构、来源与工作机制，就能掌握词向量生成的核心逻辑。

1. 嵌入矩阵的结构：V×D的二维数值表

嵌入矩阵的维度由“词汇表大小（V）”和“词向量维度（D）”共同决定，即矩阵大小为V×D：

V（Vocabulary Size）：模型能识别的所有Token总数（如LLaMA 2的V=50257，GPT-4的V约为12万）；
D（Embedding Dimension）：每个Token对应的向量维度（如BERT-base的D=768，GPT-3的D=12288），维度越高，理论上能捕捉的语义细节越丰富，但计算成本也越高。

以“词汇表V=10000，词向量维度D=300”为例，嵌入矩阵可视为一个10000行、300列的表格：

每一行对应一个唯一的Token ID（如ID=102对应“我”，ID=2034对应“喜欢”）；
每一行的300个数值，共同构成该Token的词向量。

其结构示意如下（仅展示部分内容）：

Token ID	词向量（前5维示例）	对应Token
101	[0.08, -0.10, 0.40, -0.25, 0.12]	“你”
102	[0.10, 0.20, -0.30, 0.18, -0.05]	“我”
2034	[0.05, -0.12, 0.30, -0.08, 0.22]	“喜欢”
5678	[0.35, 0.15, -0.20, 0.40, -0.18]	“人工智能”

2. 嵌入矩阵的来源：从初始化到动态学习

嵌入矩阵并非“天生带有语义”，而是通过模型训练逐步优化的，其生成过程分为两步：

（1）初始化：为向量赋予初始值

模型训练初期，嵌入矩阵的数值需通过初始化确定，常见方式有两种：

随机初始化：最常用的方式，通过服从正态分布（如N(0, 0.01)）的随机数为每个Token的向量赋值。此时的向量无实际语义，仅作为训练的“起点”；
预训练嵌入初始化：若模型需快速适配特定领域（如医疗、法律），可使用已训练好的通用词向量（如Word2Vec、GloVe、FastText生成的向量）初始化嵌入矩阵。这些预训练向量已通过大规模通用语料学习到基础语义（如“医生”与“医院”的向量距离较近），能加速模型的领域适配。

（2）动态学习：通过训练优化语义表示

初始化后的嵌入矩阵，会在模型训练过程中持续更新：

模型通过反向传播算法，根据任务损失（如“下一个词预测”“掩码语言模型”）调整嵌入矩阵的数值；
优化目标是：让语义相似的Token（如“猫”与“狗”，“开心”与“快乐”）的向量距离更近，语义无关的Token（如“猫”与“飞机”）的向量距离更远；
例如，在“我喜欢____”的填空题中，若模型预测“苹果”时损失较大，则会调整“喜欢”与“苹果”的向量，使后续预测更准确。

3. 嵌入矩阵的工作机制：Token ID→向量的“查表过程”

在模型推理（或训练）时，词向量的生成是一个高效的“查表”过程，具体步骤如下：

Token→ID映射：输入文本经分词后，每个Token会被转换为对应的Token ID（如“我喜欢人工智能”→ID=[102, 2034, 5678]）；
向量查找：嵌入层根据Token ID，在嵌入矩阵中找到对应的行，提取该行的数值作为词向量；
输出向量序列：将所有Token的词向量按顺序组合，形成向量矩阵（如3个Token×300维→3×300矩阵），送入后续的Transformer层进行语义计算。

三、Token分词、词向量与大模型的深层关联

Token分词与词向量并非孤立的技术环节，而是与大模型的架构设计、训练目标深度绑定——不同模型的分词策略与词向量特性，直接决定了其核心能力差异。以下从4个维度解析三者的关联逻辑：

1. 词汇表差异：模型“认知范围”的边界

每个模型的词汇表（由分词策略决定）都是其“认知边界”：词汇表包含的Token越多，模型能直接识别的词就越多，处理未登录词（OOV）的压力就越小。

例如：

LLaMA 2的词汇表大小约为50257，主要覆盖英文及部分多语言Token；
中文优化模型（如GLM-4中文版）的词汇表约为10万，包含大量中文子词（如“区块链”“元宇宙”）；
GPT-4的词汇表规模更大（约12万），支持更多语言和专业领域术语。

词汇表的差异直接导致词向量的“映射范围”不同：若两个模型的词汇表无交集（如一个仅含英文Token，一个仅含中文Token），则其嵌入矩阵的行含义完全不同，词向量也无法直接对比。

2. 嵌入矩阵大小：模型“语义容量”的权衡

嵌入矩阵的大小（V×D）由词汇表（V）和词向量维度（D）共同决定，它反映了模型的“语义容量”与“计算成本”的平衡：

大词汇表（大V）：需更多行存储Token，适合多语言、多领域模型，但会增加内存占用；
高维度向量（大D）：需更多列存储语义信息，适合复杂任务（如长文本生成），但会提升推理时的矩阵计算耗时。

以LLaMA 2和GPT-3为例：

LLaMA 2（7B参数）：V=50257，D=4096→嵌入矩阵大小=50257×4096≈205MB；
GPT-3（1750亿参数）：V=50257，D=12288→嵌入矩阵大小=50257×12288≈614MB。

可见，即使词汇表相同，词向量维度的提升也会显著增加嵌入矩阵的规模，进而影响模型的部署成本。

3. 嵌入矩阵的学习：模型“语义理解”的核心过程

嵌入矩阵的训练过程，本质是模型“学习语义”的过程：

对于预训练模型（如BERT、GPT），嵌入矩阵会与模型的其他层（如注意力层、全连接层）共同优化，通过“掩码语言模型”（MLM）、“下一个词预测”（Causal LM）等任务，让词向量逐步捕捉语义关联；
例如，在BERT的MLM任务中，“我[MASK]喜欢阅读”的掩码预测会调整“我”“喜欢”“阅读”与掩码Token的向量，使“很”“最”等符合语境的Token向量更接近掩码位置；
训练完成后，嵌入矩阵中的向量已具备明确语义：“国王”−“男人”+“女人”≈“王后”的向量关系，正是通过训练学习到的语义规律。

4. 嵌入矩阵的固定性：训练与推理的边界

嵌入矩阵在模型训练完成后（即预训练或微调结束），通常会保持固定，仅在以下场景中才会更新：

领域微调：当模型需适配新领域（如医疗）时，会使用领域语料重新微调，此时嵌入矩阵会随任务损失更新，以学习领域专属语义（如“心肌梗死”与“冠心病”的关联）；
推理阶段：模型处理新输入时，仅会通过嵌入矩阵“查表”生成词向量，不会修改矩阵中的数值——这确保了模型输出的稳定性和一致性。

例如，GPT-4训练完成后，其嵌入矩阵中的““人工智能”对应的向量已固定，无论输入“我研究人工智能”还是“人工智能改变世界”，该Token的向量始终不变，仅会通过后续注意力层的计算，根据上下文调整其对最终输出的贡献权重。

四、Token分词与词向量的技术演进趋势

随着大模型向“多语言、长上下文、低资源适配”方向发展，Token分词与词向量技术也在不断迭代，以下3个趋势值得关注：

1. 多语言统一分词：打破语言边界

传统分词方法多针对单一语言优化（如中文用jieba、英文用BPE），而新一代模型（如mT5、Qwen-Max多语言版）采用统一子词分词，通过将多语言文本视为“字符序列”，用SentencePiece等工具生成跨语言子词表。例如，“苹果”（中文）、“apple”（英文）、“りんご”（日文）可能通过高频字符组合，共享部分子词单元，既减少词汇表规模，又提升多语言语义对齐能力。

2. 动态词向量：适配上下文变化

传统词向量（如Word2Vec）为每个Token分配固定向量（“银行”在“银行存款”和“河岸”中向量相同），无法处理一词多义。而基于Transformer的动态词向量（如BERT的Contextual Embedding），会结合上下文调整向量：“银行存款”中的“银行”向量更接近“金融”，“河岸”中的“银行”向量更接近“河流”，大幅提升了模型对歧义的理解能力。未来，动态词向量还将与知识图谱结合，进一步融入实体关系等结构化信息。

3. 轻量化分词与向量：降低部署成本

大模型的边缘端部署（如手机、嵌入式设备）对计算资源敏感，因此轻量化分词工具（如TinySentencePiece）和低维词向量（如将D从768压缩至128）成为研究热点。通过量化技术（如INT8量化）和蒸馏方法，可在损失少量语义精度的前提下，将嵌入矩阵的存储成本降低80%以上，让大模型技术更易落地于低资源场景。

总结

Token分词与词向量是大模型“理解语言”的底层基石：分词决定了模型“如何拆分文本”，向量决定了模型“如何用数值表示语义”，两者共同构成了自然语言到机器语言的转换桥梁。从技术选择来看，分词方法需平衡任务需求、语言特性与模型适配性，向量构建需兼顾语义精度与计算成本；从演进趋势来看，多语言统一、动态上下文适配、轻量化部署将成为核心方向。

对于开发者而言，深入理解这两大技术的原理与关联，不仅能更科学地选择预训练模型（如中文任务优先选GLM、多语言任务优先选Qwen-Max），还能在模型微调与部署阶段，通过优化分词策略、调整向量维度，进一步提升模型性能与效率。未来，随着大模型技术的持续突破，Token分词与词向量还将不断迭代，为更复杂的语言理解与生成任务提供更强力的支撑。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述