1、什么是大模型?

大模型,英文名叫Large Model,也被称为基础模型(Foundation Model)。

我们通常说的大模型,主要指的是其中最常用的一类——大语言模型(Large Language Model,简称LLM)。除此之外,还有视觉大模型、多模态大模型等。所有这些类别合在一起,被称为广义的大模型;而狭义的大模型则特指大语言模型

img

「大模型的本质」

从本质上来讲,大模型是包含超大规模参数(通常在十亿个以上)的神经网络模型。这些参数使得大模型能够处理和理解复杂的任务,如自然语言处理、图像识别等。

「神经网络的基础」

神经网络是AI领域目前最基础的计算模型。它通过模拟大脑中神经元的连接方式,能够从输入数据中学习并生成有用的输出。

如下图所示,一个典型的神经网络结构包括:

  • 输入层:接收外部输入数据。
  • 隐藏层:多个中间层,每层神经元与下一层的所有神经元都有连接(即全连接神经网络),负责数据的特征提取和转换。
  • 输出层:生成最终的输出结果。

img

常见的神经网络架构有:

  • 卷积神经网络(CNN):主要用于图像处理。
  • 循环神经网络(RNN):适用于序列数据处理,如时间序列分析。
  • 长短时记忆网络(LSTM):改进版的RNN,能更好地处理长期依赖问题。
  • Transformer架构:目前业界大部分大模型都采用了这种架构,尤其擅长处理自然语言任务。

2、大模型的“大”体现在哪些方面?

大模型的“大”,不仅仅是参数规模大,还包括以下几个方面:

img

  1. 参数规模大:大模型包含数十亿甚至数千亿个参数,使其能够捕捉更复杂的模式和关系。
  2. 架构规模大:大模型通常具有非常深的网络结构,层数可达几十层甚至上百层。
  3. 训练数据大:大模型需要海量的数据进行预训练,以确保其具备广泛的知识和能力。
  4. 算力需求大:训练大模型需要强大的计算资源,如高性能GPU集群或TPU,以支持大规模的并行计算。

以OpenAI公司的GPT-3为例,共有96层隐藏层,每层包含2048个神经元,其架构规模非常庞大。

大模型的参数数量和神经元节点数之间存在一定的关系。简单来说,神经元节点数越多,参数也就越多。GPT-3整个模型的参数数量约为1750亿个。

GPT-3的训练数据也非常庞大,采用了多种高质量的数据集进行预训练:

  • CC数据集:4千亿词
  • WebText2:190亿词
  • BookCorpus:670亿词
  • 维基百科:30亿词

这些数据集加起来,原始数据总量达到了45TB,即使经过清洗后也有570GB。如此海量的数据确保了GPT-3具备广泛的知识和能力,能够在各种自然语言任务上表现优异。

还有算力需求。很具公开数据显示,训练GPT-3大约需要3640PFLOP·天。如果使用512张NVIDIA A100 GPU(单卡算力195 TFLOPS),大约需要1个月的时间。实际上,由于训练过程中可能会出现中断或其它问题,实际所需时间可能会更长。

总而言之,大模型就是一个虚拟的庞然大物,具有复杂的架构、庞大的参数量、依赖海量数据,并且训练过程非常烧钱。

而参数较少(一般在百万级以下)、层数较浅的小模型,具有轻量级、高效率和易于部署的特点,适用于数据量较小、计算资源有限的垂直领域场景,如简单的文本分类、情感分析等任务。

3、大模型是如何训练出来的?

众所周知,大模型可以通过学习海量数据,吸收数据里面的“知识”。然后再对知识进行运用,例如回答问题、生成内容等。

学习知识的过程,就是训练过程。运用知识的过程,即为推理。

img

大模型的训练,又分为两个主要环节:预训练(Pre-training)和微调(Fine-tuning)。

预训练

在预训练时,首先需要选择一个合适的模型框架,例如Transformer。然后,通过“投喂”前面提到的海量数据,让大模型学习到通用的特征表示。

为什么大模型具有强大的学习能力?

大模型之所以具备如此强大的学习能力,主要归功于其庞大的参数规模和复杂的神经网络结构。我们可以从以下几个方面来理解这一点:

「1. 神经元与权重的关系」

img

如上图,深度学习模型中的每个神经元可以看做是一个函数计算单元。输入x经过一系列线性变换和非线性激活函数后,产生输出y。这个过程可以用以下公式表示:

其中,

  • W是权重(weights),决定了输入特征对模型输出的影响程度。
  • b是偏置(bias),影响神经元的激活阈值,即神经元对输入信号的敏感程度。
  • f是激活函数,如ReLU、Sigmoid等,用于引入非线性特性。

权重是最主要的参数之一。通过反复训练,模型不断调整权重,使其能够更好的拟合训练数据。「这也就是训练的核心意义——找到最合理的权重和偏置组合,使得模型能够在新数据上表现良好。」

「2.参数与学习能力的关系」

参数越多,模型通常能够学习到更复杂的模式和特征,从而在各种任务上表现出更强的性能。

我们通常会说大模型具有两个特征能力——涌现能力和泛化能力。

当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,会表现出一些未能预测的、更复杂的能力和特性。模型能够从原始训练数据中,自动学习并发现新的、更高层次的特征和模式。这种能力,被称为“涌现能力”。

“涌现能力”,可以理解为大模型的脑子突然“开窍”了,不再仅仅是复述知识,而是能够理解知识,并且能够发散思维。

泛化能力,是指大模型通过“投喂”海量数据,可以学习复杂的模式和特征,可以对未见过的数据做出准确的预测。就像董宇辉一样,书读得多了,有些书虽然没读过,他也能说几句。

「3. 过拟合的风险」

然而,参数规模越来越大,虽然能让大模型变得更强,但是也会带来更庞大的资源消耗,甚至可能增加“过拟合”的风险。

过拟合,即是指模型对训练数据学习得过于精确,以至于它开始捕捉并反映训练数据中的噪声和细节,而不是数据的总体趋势或规律。换句话说,模型变成了“书呆子”,只会死记硬背,不愿意融会贯通。

预训练使用的数据

预训练使用的数据是海量的未标注数据(几十TB)。之所以使用未标注数据,是因为互联网上存在大量的此类数据,很容易获取。而标注数据(基本上靠人工标注)需要消耗大量的时间和金钱,成本太高。

「数据预处理」

为了确保数据的质量和适用性,整个数据需要经过以下预处理步骤:

  • 收集:从多个来源收集原始数据。
  • 清洗:去除异常数据和错误数据。
  • 脱敏:删除隐私信息,确保数据安全。
  • 分类:对数据进行分类,使其更标准化,有利于后续训练。

「获取数据的方式」

获取数据的方式也是多样化的:

  • 个人和学术研究:可以通过官方论坛、开源数据库或研究机构获取。
  • 企业:既可以自行收集和处理,也可以直接通过外部渠道(市场上有专门的数据提供商)购买。
无监督学习方法

预训练模型通过无监督学习从未标注数据中学习到通用特征和表示。常见的无监督学习方法包括:

  • 自编码器(Autoencoder):通过学习数据的压缩表示来进行重构。
  • 生成对抗网络(GAN):通过生成器和判别器之间的对抗训练来学习数据分布。
  • 掩码语言建模(Masked Language Modeling, MLM):随机遮蔽部分输入文本,让模型预测被遮蔽的部分。
  • 对比学习(Contrastive Learning):通过对比相似和不相似的数据样本,学习数据的表示。

微调

预训练学习之后,我们得到了一个通用大模型,这种模型虽然具备广泛的知识和能力,但在完成特定任务时往往表现不佳。因此,我们需要对模型进行微调。

什么是微调?

「微调(Fine-tuning)」 是给大模型提供特定领域的标注数据集,对预训练的模型参数进行微小的调整,使其更好地完成特定任务。通过微调,可以显著提升模型在特定任务上的性能。

微调之后的大模型可以根据应用场景分为不同层次:

  • 通用大模型:类似于中小学生,具有广泛的基础知识,但缺乏专业性。
  • 行业大模型:基于特定行业的数据集进行微调。如金融证券大模型通过基于金融证券数据集的微调,可以得到一个专门用于金融分析和预测的大模型。这相当于大学本科生,具备了更专业的知识和技能。
  • 专业大模型(或垂直大模型):进一步细分到更具体的领域,如金融领域的股票预测等。这相当于研究生,具备高度专业化的能力。

如下图所示。

img

微调的具体步骤
  1. 选择合适的标注数据集:标注数据集是微调的关键。需要根据具体任务选择高质量的标注数据,确保数据的多样性和代表性。

  2. 调整模型参数:在微调过程中,通过对少量标注数据的训练,对预训练模型的参数进行微小的调整,使其更适合特定任务。常见的微调方法包括:

  • 全层微调:调整所有层的参数。
  • 部分层微调:仅调整部分层的参数,保留其他层的参数不变。
  • 冻结部分层:冻结某些层的参数,仅调整新添加的层或特定层的参数。
  1. 评估模型性能:微调完成后,需要对大模型进行全面评估。评估内容包括性能、稳定性和准确性等,以确认模型是否符合设计要求。常用的评估方法包括:
  • 使用实际数据或模拟场景进行测试。
  • 比较模型在不同任务上的表现。
  • 分析模型的推理速度和资源消耗。
  1. 部署与推理:评估和验证完成后,大模型就可以部署到生产环境中,用于推理任务。此时,模型的参数已经定型,不再变化,可以真正开始工作。推理过程就是用户通过提问或提供提示词(Prompt),让大模型回答问题或生成内容。

完整的流程图如下图所示:

img

4、大模型到底有什么作用?

按训练数据类型分类的大模型

根据训练的数据类型和应用方向,大模型通常分为以下几类:

  1. 语言大模型(以文本数据进行训练)
  2. 音频大模型(以音频数据进行训练)
  3. 视觉大模型(以图像数据进行训练)
  4. 多模态大模型(结合文本、图像、音频等多种模态的数据)

每种类型的大模型在不同领域中发挥着重要作用。其中,

「语言大模型」

应用场景:自然语言处理(NLP)

功能特点:

  • 理解、生成和处理人类语言:能够理解和生成高质量的自然语言文本。
  • 文本内容创作:生成文章、诗歌、代码等。
  • 文献分析:自动摘要、关键词提取、情感分析等。
  • 机器翻译:将一种语言翻译成另一种语言。
  • 对话系统:如ChatGPT,用于构建智能聊天机器人。

典型应用:

  • 内容创作:自动生成新闻报道、博客文章、技术文档等。
  • 客服支持:自动化客户服务,回答用户问题。
  • 教育辅助:帮助学生学习语言、编写作文等。
  • 法律文件处理:审查合同、撰写法律意见书等。

「音频大模型」

应用场景:语音识别与合成

功能特点:

  • 识别和生成语音内容:能够准确识别语音并转换为文本,或根据文本生成自然的语音。

典型应用:

  • 语音助手:如Siri、Alexa等智能语音助手。
  • 语音客服:自动应答电话客服系统。
  • 智能家居控制:通过语音命令控制家电设备。
  • 语音转文字:会议记录、采访转录等。

「视觉大模型」

应用场景:计算机视觉(CV)

功能特点:

  • 识别、生成和修复图像:能够识别物体、场景、人脸等,并生成或修复图像。

典型应用:

  • 安防监控:实时监控和异常检测。
  • 自动驾驶:识别道路、行人、交通标志等。
  • 医学影像分析:辅助医生诊断疾病,如X光、CT扫描等。
  • 天文图像分析:识别星系、行星等天体。

「多模态大模型」

应用场景:跨领域任务

功能特点:

  • 整合并处理来自不同模态的信息:可以处理文本、图像、音频和视频等多种形式的数据。

典型应用:

  • 文生图:根据文本描述生成相应的图像。
  • 文生视频:根据文本描述生成视频内容。
  • 跨媒体搜索:通过上传图片搜索相关的文字描述,或通过文字搜索相关图片。
  • 多媒体内容创作:生成包含文本、图像、音频的综合内容。

按应用场景分类的大模型

除了按照数据类型分类,大模型还可以根据具体应用场景进一步细分。

  • 金融大模型:用于风险管理、信用评估、交易监控、市场预测、合同审查、客户服务等。
  • 医疗大模型:用于疾病诊断、药物研发、基因分析、健康管理等。
  • 法律大模型:用于法律咨询、合同审查、案例分析、法规检索等。
  • 教育大模型:用于个性化学习、在线辅导、考试评估、课程推荐等。
  • 代码大模型:用于代码生成、代码补全、代码审查、编程助手等。
  • 能源大模型:用于能源管理、故障预测、优化调度等。
  • 政务大模型:用于政策分析、舆情监测、公共服务等。
  • 通信大模型:用于网络优化、故障诊断、服务质量提升等。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐