ollama 运行和部署（大模型转换为 GGUF）

个人学习记录

你看perro

631人浏览 · 2025-03-25 19:25:39

你看perro · 2025-03-25 19:25:39 发布

1.创建自己虚拟环境llama.cpp

conda create --name llama.cpp python=3.10
conda activate llama.cpp

2.下载克隆llama.cpp仓库和安装相关包

git clone https://github.com/ggerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt

3.将hf模型转换为GGUF

# 如果不量化，保留模型的效果

python llama.cpp/convert_hf_to_gguf.py /root/autodl-tmp/demo/model/Qwen/Qwen2.5-1.5B-Instruct_merged --outtype f16
--verbose --outfile /root/autodl-tmp/demo/model/Qwen/Qwen2.5-1.5B-Instruct_merged/Qwen2.5-1.5B-Instruct_merged-gguf.gguf

python llama.cpp/convert_hf_to_gguf.py 自己模型路径 --outtype f16 --verbose --outfile 自己定义模型gguf文件名

//可以选择量化（加速并有损效果）
--outtype q8_0
fp16 和 f32: 不量化，保留原始精度。

4.使用ollama运行gguf，先进行安装，启动ollama服务，不要进行关闭，重开一个端口

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

5.创建ModelFile

#GGUF文件路径
FROM /root/autodl-tmp/demo/model/Qwen/Qwen2.5-1.5B-Instruct_merged/Qwen2.5-1.5B-Instruct_merged-F16.gguf

6.使用ollama create命令创建自定义模型

ollama create llama-Qwen-1.5B-merged --file ./ModelFile

7.运行自定义模型，进行验证

ollama list 
ollama run llama-Qwen-1.5B-merged:latest

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

工业物联网时序数据库选型指南：Apache IoTDB 技术架构与实战解析

魔乐社区

面向未来的工业大数据架构：时序数据库（TSDB）选型避坑指南和国产化思考

魔乐社区

宇树G1-D：人形机器人下一步方向！

魔乐社区

所有评论(0)

查看更多评论

你看perro

@LucasSu

已为社区贡献2条内容