【大模型】大模型基础知识

GPT是[Generative Pre-trained Transformer]的缩写，意为生成式预训练变换器.G 代表 Generative (生成式): 这是一种机器学习模型，其目标是学习数据的分布，并能生成与训练数据相似的新数据。在自然语言处理 (NLP)领域，生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型，能够根据给定的上下文生成连贯的文本。

Learn Forever

2260人浏览 · 2024-02-19 20:16:55

Learn Forever · 2024-02-19 20:16:55 发布

几个常用术语

模型=公式+参数
K矩阵：字典
V矩阵：关键字的权重数值
AGI：通用人工智能
分词、词性关联、词性标注、知识图谱。分词操作是AI的开发，但是离AGI越来越远。自注意力机制的核心思想是摒弃分词等操作，面向更通用的场景去实现
大模型全称大语言模型：LLM
大模型技术：
一阶技术：
二阶技术：向量数据库，向量检索，LangChain，sk，智能体
三阶技术：Fine-tune(模型定制，专业领域，垂直行业等场景)
GPT1,2,3,3.5 都有一篇论文，4只有一篇技术报告
RL ：reinforcement learing 强化学习。RLHF：Reinforcement Learning fromHuman Feedback 基于人类反馈的强化学习
开源模型：LLama，GLM，百川，羊驼模型
midjourney 画图软件；stable diffusion SD

1.GPT定义

GPT是[Generative Pre-trained Transformer]的缩写，意为生成式预训练变换器.

G 代表 Generative (生成式): 这是一种机器学习模型，其目标是学习数据的分布，并能生成与训练数据相似的新数据。在自然语言处理 (NLP)领域，生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型，能够根据给定的上下文生成连贯的文本。
P 代表 Pre-trained(预训练): 预训练是深度学习领域的一种常见方法，通过在大规模数据集上进行训练，模型学习到一般的知识和特征。这些预训练的模型可以作为基础模型，针对具体任务进行微调。GPT模型通过预训练，在无标签的大规模文本数据集上学习语言模式和结构，为后续的任务提供基础。
T代表Transformer (变换器): Transformer 是一种在自然语言处理中广泛使用的神经网络结构它通过自注意力 (Self-Attention)机制有效地捕捉上下文信息，处理长距离依赖关系，并实现并行计算。GPT模型采用Transformer结构作为基础，从而在处理文本任务时表现出优越性能。

2.注意力机制-Attention Is All You Need

谷歌2017年发表论文《Attention Is All You Need》，在注意力机制的使用方面取得了很大的进步，对
Transformer模型做出了重大改进。
在这里插入图片描述

3.Transformer框架

Most competitive neural sequence transduction models have an encoder-decoder structure [5,2,35] .Here, the encoder maps an input sequence of symbol representations (x1,…,xn) to a sequenceof continuous representations z = (z1,…, zn ). Given z, the decoder then generates an outputsequence (y1, …, ym ) of symbols one element at a time. At each step the model is auto-regressive[10], consuming the previously generated symbols as additional input when generating the next.
The Transformer follows this overall architecture using stacked self-attention and point-wise, fullyconnected layers for both the encoder and decoder, shown in the left and right halves of Figure 1 respectively.

模型体系结构最有竞争力的神经序列转导模型的编码器-解码器结构[5,2,35],在这里，编码器映射符号表示的输入序列(X1，…，x)转换成一系列连续表示Z=(z1，…zn)。给定Z，解码器然后生成输出序列(y1，…ym)的符号，一次一个元素。模型在每一步都是自回归的[10]，在生成下一个符号时，使用先前生成的符号作为附加输入。Transformer遵循这一总体架构，编码器和解码器都使用堆叠的自我关注和逐点全连接层，分别如图1的左半部分和右半部分所示

Transformer框架，左边是一个编码器模型，右边是一个解码器模型。
在这里插入图片描述

4.数据训练

To train the very first InstructGPT models, we asked labelers to write prompts themselves. This is because we needed an initial source of instruction-like prompts to bootstrap the process, and these kinds of prompts weren’t often submitted to the regular GPT-3 models on the API We asked labelersto write three kinds of prompts:

Plain: We simply ask the labelers to come up with an arbitrary task, while ensuring the tasks had sufficient diversity.
Few-shot: We ask the labelers to come up with an instruction, and multiple query/response pairs for that instruction.
User-based: We had a number of use-cases stated in waitlist applications to the OpenAl API. We asked labelers to come up with prompts corresponding to these use cases.

在这里插入图片描述

5.LangChain

(1).LangChain是个啥

面向大模型的开发框架
简单实现复杂功能的AI应用
多组件封装
LangChain是一个开源的框架，它可以让AI开发人员把像GPT-4这样的大型语言模型 (LLM)和外部数据结合起来。

用户可以利用LangChain的模块来改善大语言模型的使用，通过输入自己的知识库来“定制化”自己的大语言模型。

(2). LangChain官方教程

很好的中文教程:
https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
中文官方:
https://www.langchain.asia
官方文档:
https://python.langchain.com/docs/get_started/introduction.html
官方代码:
https://github.com/langchain-ai/langchain

(3). LangChain核心:组件/封装/模块

在这里插入图片描述

(4).IO 模块

在这里插入图片描述

6.Activation-aware Weight Quantization 的翻译是激活感知权重量化

7.大模型MOE（Mixture of Experts，混合专家模型）

是一种深度学习模型设计策略，它通过将多个模型（称为“专家”）直接结合在一起，以获得更好的预测性能。MOE架构的基本原理包括两个核心组件：GateNet和Experts。

GateNet：用来判断输入样本应该由哪个专家模型接管处理的网络。它可以理解为一个分配器，根据输入样本的特征，动态决策将其分配给哪个专家进行处理。这个过程可以通过一个softmax分类器来实现，其中每个神经元对应一个专家模型。GateNet的输出值表示了每个专家的权重。
Experts：一组相对独立的专家模型，每个专家负责处理特定的输入子空间。在MOE架构中，输入样本首先通过GateNet进行一个多分类的判别过程，确定最合适的专家模型。然后，选定的专家模型接管输入样本的处理，输出最终的预测结果。
MOE方案可以有效地提高大模型的容量和效率。具体而言，MOE有一套门控机制和一套门控输出机制来合并和平衡专家的选择，用于决定每个专家对最终预测的贡献。还有一套专家选择机制，会根据门控机制的输出选择一部分专家进行预测。这样可以减少计算量，并使模型能够针对不同的输入选择最合适的专家。

另外，GPT-4等大型模型也采用了MOE架构，它们由多个2200亿参数的MoE模型组成，从而实现了更高的性能和效率。

8.机器学习：监督学习&无监督学习&强化学习

监督学习&无监督学习都需要明确的高速机器数据的特征。
- 监督学习：需要在学习时人为提供数据对象的类别
- 无监督学习：一般没有预设的类别标识，通过机器自动学习数据的分布并将相似的数据归为同类
强化学习：不会直接告诉机器类别，而是每次都让机器进行判断，判断的对就给予奖励，不对就不给予奖励，反复尝试逐渐学习到特征

9.深度学习

深度学习视图模拟人类大脑的工作方式，其灵感来源于神经生物学，通过学习大量数据，自动提取出数据的高层次特征和模式，从而实现图像识别、语音识别、自然语言理解等任务。按架构不同，神经网络可分为：卷积神经网络CNNS，循环神经网络RNNS，Transformer网络等

10.思维链（COT）&思维树（TOT）

思维树（TOT）：对COT进一步扩展，在思维链每一步，推理多个分支，拓扑展开成亦可思维树。石使用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来搜索思维树，进行前瞻和回溯。

11.ReAct框架

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模