【InternLM 实战营笔记】LMDeploy量化internlm2-chat-20b模型
使用控制台和模型对话。
·
准备环境
拉取环境
/root/share/install_conda_env_internlm_base.sh lmdeploy
激活环境
conda activate lmdeploy
安装依赖库
# 解决 ModuleNotFoundError: No module named 'packaging' 问题
pip install packaging
# 使用 flash_attn 的预编译包解决安装过慢问题
pip install /root/share/wheels/flash_attn-2.4.2+cu118torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
pip install 'lmdeploy[all]==v0.2.4'
复制模型
cp -r /root/share/model_repos/internlm2-chat-20b/ /root/model/
INT4 权重量化
lmdeploy lite auto_awq \
"/root/model/internlm2-chat-20b/" \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 2048 \
--w-bits 4 \
--w-group-size 128 \
--work-dir ./quant_output
使用控制台和模型对话
lmdeploy chat turbomind ./quant_output --model-format awq
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)