随着ChatGPT在2022年11月的发布,大语言模型从比较专业的应用领域走进了人们的生活。在这之前,生成式预训练Transformer(GPT)在文本预测、推理、补全、翻译等方面应用较广,而ChatGPT的“Chat”这种交互方式拉近了生成式AI与人类使用者之间的距离,大语言模型迅速爆火,同类的产品经过一段时间的追赶,也逐步形成与OpenAI竞争的态势。

在这里插入图片描述

  • 一、误区

大语言模型(LLM,Large Language Model)从2017年Google翻译团队那篇著名的论文《attention is all you need》开始飞速发展,时间也不过7、8年时间,模型架构、相关软件版本变化非常快,各种模型层出不穷,对于为了开发基于AI的应用、将LLM当成一种基础工具使用的初学者,学习大语言模型可能会走入以下误区:

1、以深度学习的理论学习大语言模型

由于神经网络、深度学习、NLP等理论、算法、实践都比较成熟,一些图书会以这些理论为基础,讲解LLM,这也没什么问题,但对于初学者,这些知识门槛不低,很容易造成“入门到放弃”。实际上,从2017年后,LLM的基础理论并未有大的变化,一个Transformer架构、一个注意力机制,再加上一个Transformers库的知识储备,对于入门LLM基本上就够了。

2、可能误入ChatGPT生态

很多LLM的书,是讲ChatGPT如何使用,如何用OpenAI的接口编写程序,图书内容让人眼花缭乱,但问题显而易见,我们难于访问ChatGPT,使用会有成本 ,且使用的是云服务,自己部署模型的本领未学到。

3、可能被限定到某种模型或平台

市面上的模型非常多,几乎都声称爆款、赶超OpenAI、霸榜huggingface之类的,然后初学者被引导到人家的官网、云平台,知识限定到某种模型或API。实际上,从使用者来看,能装显卡驱动、能装CUDA、能装Python,会使用Transformers库,那就能处理大部分模型了,各种模型的安装、微调、开发API,大同小异。

  • 二、学习方法

那么如何系统地学习大语言模型,少走弯路,是初学者所需要了解的。合理的学习路径能够让初学者循序渐进地掌握知识,每学一部分内容,会打下一定的LLM基础,学习时间也不长,学得也扎实,做到“从入门到精通”,而不是“从入门到放弃“。以下是作者总结的学习方法和步骤:

1、准备显卡

LLM是实践性非常强的一门学科,不管是安装、微调、量化,还是应用开发,都需要动手实践,做得多了,填得坑多,经验就丰富。有条件的话,最好准备一张24G显存的显卡,因为目前新的8B、9B规模的模型,使用半精度装入GPU大概要20G以上的显存,当然16G显存的显卡也可以用,装入的模型稍旧些,不影响学习。但如果听信了模型量化工具不需要GPU资源,也能用大模型的说法,实际上这个说法也没错,但学到的知识也只是学到了使用量化大模型这一点知识。

2、学基础知识

了解NLP、Transformer、自注意力机制、PyTorch等这些LLM的基础知识,对深入学习LLM会有帮助,做到知其然,也知其所以然。

3、亲自部署大模型

有很多云算力租用平台,是将显卡驱动、CUDA、Anaconda(Python虚拟环境)、PyTorch等基础环境事先装好的,初学者使用这些平台就会漏学掉很多知识,事实上,显卡驱动、CUDA、Pytorch之间的版本依赖问题是比较多的,安装过程也并不会很顺利,只有自己多装几遍,多实践,才能摸清楚LLM基础环境的脾气,以后遇到报错的时候不会慌张。正确的做法是用裸机,最好是用Linux,初学者在上面装显卡驱动、CUDA、Anaconda、PyTorch,然后部署某一个大模型完整实践,其他模型的使用也同样基于Transformers库,大同小异,区别不大,多装几遍就可以应对很多模型了。

4、学习微调

微调(也可以夸大一些说成训练)是应用大模型的常用技术,初学者在能熟练安装模型的基础上,就可以练习某些模型的微调了,语料格式也就那么几种常用的,微调方法以LoRA较为常用,多练习几遍,也就掌握了。具备这样的知识,就能做行业模型训练之类的工作了。

5、学习RAG

RAG(检索增强、知识库与LLM整合)是目前比较流行的一种技术,我个人理解这只是算力不足、模型训练周期过长等情况下的一种过渡性方案,前景并不好,不过这只是我的一家之言,不一定对。目前RAG比较流行,学习一下也好。

6、学习应用开发

首先,得先学OpenAI的编程接口技术(目前是事实上的Chat应用标准接口方式),了解SSE(服务端主动向客户端推送信息),然后学做一个Chat工具,接着按自己的爱好,学学编程机器人、Agent之类的技术。

  • 三、总结

经过以上的学习步骤,从理论、到具体操作(安装、微调、量化),然后到开发,把LLM的常用的技术就学扎实了,实现了从0到1的突破,用的时间也就是半个月左右,在此基础上,再根据实际情况深入学习,就没什么问题了。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐