从0到1：如何系统地学习大语言模型

经过以上的学习步骤，从理论、到具体操作（安装、微调、量化），然后到开发，把LLM的常用的技术就学扎实了，实现了从0到1的突破，用的时间也就是半个月左右，在此基础上，再根据实际情况深入学习，就没什么问题了。

Python蛋挞

978人浏览 · 2024-10-21 09:03:17

Python蛋挞 · 2024-10-21 09:03:17 发布

随着ChatGPT在2022年11月的发布，大语言模型从比较专业的应用领域走进了人们的生活。在这之前，生成式预训练Transformer（GPT）在文本预测、推理、补全、翻译等方面应用较广，而ChatGPT的“Chat”这种交互方式拉近了生成式AI与人类使用者之间的距离，大语言模型迅速爆火，同类的产品经过一段时间的追赶，也逐步形成与OpenAI竞争的态势。

在这里插入图片描述

一、误区

大语言模型（LLM，Large Language Model）从2017年Google翻译团队那篇著名的论文《attention is all you need》开始飞速发展，时间也不过7、8年时间，模型架构、相关软件版本变化非常快，各种模型层出不穷，对于为了开发基于AI的应用、将LLM当成一种基础工具使用的初学者，学习大语言模型可能会走入以下误区：

1、以深度学习的理论学习大语言模型

由于神经网络、深度学习、NLP等理论、算法、实践都比较成熟，一些图书会以这些理论为基础，讲解LLM，这也没什么问题，但对于初学者，这些知识门槛不低，很容易造成“入门到放弃”。实际上，从2017年后，LLM的基础理论并未有大的变化，一个Transformer架构、一个注意力机制，再加上一个Transformers库的知识储备，对于入门LLM基本上就够了。

2、可能误入ChatGPT生态

很多LLM的书，是讲ChatGPT如何使用，如何用OpenAI的接口编写程序，图书内容让人眼花缭乱，但问题显而易见，我们难于访问ChatGPT，使用会有成本，且使用的是云服务，自己部署模型的本领未学到。

3、可能被限定到某种模型或平台

市面上的模型非常多，几乎都声称爆款、赶超OpenAI、霸榜huggingface之类的，然后初学者被引导到人家的官网、云平台，知识限定到某种模型或API。实际上，从使用者来看，能装显卡驱动、能装CUDA、能装Python，会使用Transformers库，那就能处理大部分模型了，各种模型的安装、微调、开发API，大同小异。

二、学习方法

那么如何系统地学习大语言模型，少走弯路，是初学者所需要了解的。合理的学习路径能够让初学者循序渐进地掌握知识，每学一部分内容，会打下一定的LLM基础，学习时间也不长，学得也扎实，做到“从入门到精通”，而不是“从入门到放弃“。以下是作者总结的学习方法和步骤：

1、准备显卡

LLM是实践性非常强的一门学科，不管是安装、微调、量化，还是应用开发，都需要动手实践，做得多了，填得坑多，经验就丰富。有条件的话，最好准备一张24G显存的显卡，因为目前新的8B、9B规模的模型，使用半精度装入GPU大概要20G以上的显存，当然16G显存的显卡也可以用，装入的模型稍旧些，不影响学习。但如果听信了模型量化工具不需要GPU资源，也能用大模型的说法，实际上这个说法也没错，但学到的知识也只是学到了使用量化大模型这一点知识。

2、学基础知识

了解NLP、Transformer、自注意力机制、PyTorch等这些LLM的基础知识，对深入学习LLM会有帮助，做到知其然，也知其所以然。

3、亲自部署大模型

有很多云算力租用平台，是将显卡驱动、CUDA、Anaconda（Python虚拟环境）、PyTorch等基础环境事先装好的，初学者使用这些平台就会漏学掉很多知识，事实上，显卡驱动、CUDA、Pytorch之间的版本依赖问题是比较多的，安装过程也并不会很顺利，只有自己多装几遍，多实践，才能摸清楚LLM基础环境的脾气，以后遇到报错的时候不会慌张。正确的做法是用裸机，最好是用Linux，初学者在上面装显卡驱动、CUDA、Anaconda、PyTorch，然后部署某一个大模型完整实践，其他模型的使用也同样基于Transformers库，大同小异，区别不大，多装几遍就可以应对很多模型了。

4、学习微调

微调（也可以夸大一些说成训练）是应用大模型的常用技术，初学者在能熟练安装模型的基础上，就可以练习某些模型的微调了，语料格式也就那么几种常用的，微调方法以LoRA较为常用，多练习几遍，也就掌握了。具备这样的知识，就能做行业模型训练之类的工作了。

5、学习RAG

RAG（检索增强、知识库与LLM整合）是目前比较流行的一种技术，我个人理解这只是算力不足、模型训练周期过长等情况下的一种过渡性方案，前景并不好，不过这只是我的一家之言，不一定对。目前RAG比较流行，学习一下也好。

6、学习应用开发

首先，得先学OpenAI的编程接口技术（目前是事实上的Chat应用标准接口方式），了解SSE（服务端主动向客户端推送信息），然后学做一个Chat工具，接着按自己的爱好，学学编程机器人、Agent之类的技术。

三、总结

如何学习AI大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

想正式转到一些新兴的 AI 行业，不仅需要系统的学习AI大模型。同时也要跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

那么针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

学习路线

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。