大语言模型如何学习和提取知识？

我们都知道，大语言模型 (LLM) 就像一个拥有海量知识的超级大脑，可以回答各种问题，例如“林肯的生日是什么时候？但它们真的是通过学习维基百科等知识库来回答这些问题吗？还是仅仅在训练过程中见过类似的问题，从而“作弊”得出答案呢？这篇文章将深入探讨大语言模型是如何和知识的。我们将使用一个精心设计的人物传记数据集，并借助探针技术来揭示模型内部的知识表示和提取机制。我们首先尝试将人物传记和问答 (QA)

和老莫一起学AI

865人浏览 · 2024-09-20 10:51:44

和老莫一起学AI · 2024-09-20 10:51:44 发布

导读： 我们都知道，大语言模型 (LLM) 就像一个拥有海量知识的超级大脑，可以回答各种问题，例如“林肯的生日是什么时候？”。但它们真的是通过学习维基百科等知识库来回答这些问题吗？还是仅仅在训练过程中见过类似的问题，从而“作弊”得出答案呢？

这篇文章将深入探讨大语言模型是如何记忆和提取知识的。我们将使用一个精心设计的人物传记数据集，并借助探针技术来揭示模型内部的知识表示和提取机制。

核心内容：

1. 混合训练≠真正的知识提取

我们首先尝试将人物传记和问答 (QA) 数据混合在一起训练模型。结果发现，模型能够回答关于未在训练集中出现过的人物的问题，但这更像是一种“应试教育”，模型只是学会了从问答数据中找到答案，而没有真正理解传记中的知识。

2-3. 指令微调无法保证知识提取 (除非数据增强)

接下来，我们只用人物传记预训练模型，然后使用部分人物的问答数据进行指令微调。结果发现，无论模型大小、预训练时间或微调参数如何，模型都难以回答关于其他人物的问题。

然而，如果在预训练数据中进行知识增强，例如改变写作风格或打乱句子顺序，模型的准确率就会显著提高。这表明预训练数据的多样性对于模型的知识提取能力至关重要。

4-5. 探针技术揭示模型内部机制

为了理解上述现象的原因，我们引入了位置探针 (P-probing) 和 查询探针 (Q-probing) 技术来分析模型的隐藏状态。

结果发现，知识增强会促使模型将一个人的知识线性编码到该人物姓名对应的隐藏嵌入中。如果没有知识增强，模型会将知识分散编码到传记中的所有单词/标记中，这使得知识提取变得非常困难，甚至不可能。

6. “名人”数据可以帮助“少数群体”

即使只对一部分人物（例如拥有丰富在线传记信息的“名人”）进行知识增强，其他人物（没有知识增强）的测试准确率也会显著提高。这表明在预训练数据中包含名人数据可以提高模型对少数群体的知识提取能力。

7. 双向模型难以提取知识

最后，我们还研究了 BERT 等双向模型的知识提取能力。结果发现，除非知识是单个词或多个独立的词（如出生月、日、年），否则即使进行知识增强，双向模型也难以在预训练后提取知识。

结论：

这项研究表明，预训练数据的多样性对大语言模型的知识存储和提取能力至关重要。

对实践的启示：

在预训练阶段对重要但 infrequent 的数据进行改写 (增强)，例如使用 ChatGPT、Llama-7B 或更小的辅助模型进行改写。
在预训练阶段加入更多指令微调数据，以帮助模型更有效地编码知识。

局限性和未来方向：

本研究使用了人工生成的传记数据集，未来的研究可以探索更真实的数据集。此外，我们只研究了事实性知识的提取，未来可以进一步研究模型对其他类型知识（例如程序性知识、概念性知识）的存储和提取能力。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。