一、基础作业

完成以下任务,并将实现过程记录截图:

  • 配置 LMDeploy 运行环境
  • 以命令行方式与 InternLM2-Chat-1.8B 模型对话

配置LMDeploy运行环境

安装好环境,并成功激活

5c2181f546e241518432b28a82d4d6c1.png

使用transformer运行大模型

b3e05524716b4d04ac67714d5ed52b68.png

二、进阶作业

完成以下任务,并将实现过程记录截图:

  • 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。(优秀学员必做)

使用W4A16量化

进行量化工作,保存新的HF模型。

f39146b647c94a599ff4cf5efb41f184.png

KV Cache比例再次调为0.4,进行对话

aaf987b3f35f40f2b086030dc201f648.png

可以发现推理生成的速度很快

e4bc0669b606444e89d718f5c765c521.png

 

 

  • 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。(优秀学员)

LMDeploy服务(serve)

e7bd1cc42cc645b99334e4d75488927f.png

de7ffa50803d4cfdafdf60ba7fe127a5.png

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐