Ollama 完整使用流程:从安装到模型部署全指南
启动模型时可通过参数调整性能,示例:bash运行# 设置上下文窗口为 4096 tokens,温度为 0.7(温度越低回答越稳定)常用参数说明:--context:上下文窗口大小(默认 2048,最大支持 8192,需模型支持);:随机性(0-1,0 接近确定性回答,1 更具创造性);--cpu:强制纯 CPU 运行(无 GPU 时使用);--gpu:指定 GPU 显存占用(如--gpu 4表示使
Ollama 是一款轻量级大模型本地部署工具,支持一键安装、快速运行 LLaMA 3、Mistral、Phi 等主流开源模型,无需复杂配置,新手也能轻松上手。本文整理了从安装到进阶使用的全流程,步骤清晰可直接复制操作,适用于 Windows、macOS、Linux 及魔搭社区 Notebook 环境。
一、前期准备
1. 硬件要求(关键)
- CPU:推荐 4 核及以上(入门级可运行 7B 模型,复杂任务需 8 核 +);
- 内存:至少 16GB(7B 模型建议 16GB,13B 模型建议 32GB,70B 模型建议 64GB);
- GPU:可选 NVIDIA GPU(显存 8GB+ 支持加速,无 GPU 可纯 CPU 运行,速度较慢);
- 网络:首次下载模型需联网,后续本地使用无需网络。
2. 系统支持
- Windows 10/11(64 位);
- macOS 12+(Intel/Apple Silicon 均可);
- Linux(Ubuntu 20.04+、CentOS 8+ 等主流发行版);
- 魔搭社区 Notebook(Ubuntu 基础环境,支持 root 权限)。
二、 Ollama 安装步骤
(一)Windows 系统安装
- 打开浏览器访问 Ollama 官网:https://ollama.com/;
- 点击首页「Download for Windows」按钮,下载安装包(约 100MB);
- 双击安装包,默认路径安装(无需手动配置环境变量,安装程序自动完成);
- 安装完成后,系统会自动启动 Ollama 服务(后台运行,无桌面图标);
- 验证安装:按下
Win+R输入cmd打开命令提示符,输入以下命令,显示版本号即安装成功:bash
运行
ollama --version
(二)macOS 系统安装
方式 1:官网下载安装(推荐)
- 访问 Ollama 官网:https://ollama.com/,点击「Download for macOS」;
- 拖拽安装包到「应用程序」文件夹,完成安装;
- 打开终端(Launchpad → 其他 → 终端),输入以下命令验证:
bash
运行
ollama --version
方式 2:Homebrew 安装(适合熟悉终端的用户)
- 若未安装 Homebrew,先执行安装命令:
bash
运行
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" - 安装 Ollama:
bash
运行
brew install ollama - 启动 Ollama 服务:
bash
运行
ollama serve
(三)Linux 系统安装
- 打开终端,执行官方一键安装脚本(自动适配 Ubuntu/CentOS 等系统):
bash
运行
curl -fsSL https://ollama.com/install.sh | sh - 安装完成后,启动服务:
bash
运行
ollama serve - 验证安装:
bash
运行
ollama --version - (可选)设置开机自启(Ubuntu 示例):
bash
运行
# 创建系统服务文件 sudo nano /etc/systemd/system/ollama.service - 粘贴以下内容(替换
User为你的用户名,通过whoami命令查询):ini
[Unit] Description=Ollama Service After=network.target [Service] Type=simple User=ubuntu ExecStart=/usr/local/bin/ollama serve Restart=always [Install] WantedBy=multi-user.target - 保存并启用服务:
bash
运行
sudo systemctl daemon-reload sudo systemctl enable ollama sudo systemctl start ollama
(四)魔搭社区 Notebook 安装
魔搭 Notebook 为 Python 交互式环境,需通过终端命令安装:
- 新建 Notebook 单元格,执行安装命令:
python
运行
import subprocess # 下载并安装 Ollama install_cmd = "curl -fsSL https://ollama.com/install.sh | sh" subprocess.run(install_cmd, shell=True, check=True) # 验证安装 result = subprocess.run(["ollama", "--version"], capture_output=True, text=True) print("安装成功:", result.stdout) - 后台启动 Ollama 服务(关闭 Notebook 不中断):
python
运行
# 日志输出到 /tmp/ollama.log,方便排查问题 cmd = "nohup ollama serve > /tmp/ollama.log 2>&1 &" subprocess.run(cmd, shell=True, check=True) # 验证服务是否运行 check_cmd = "ps aux | grep ollama | grep -v grep" subprocess.run(check_cmd, shell=True, capture_output=True, text=True) print("Ollama 服务已后台启动")
三、核心操作:下载与运行模型
Ollama 支持通过单条命令下载并启动模型,无需手动配置依赖,常用模型如下:
1. 查看支持的模型
访问 Ollama 模型库:https://ollama.com/library,可查看所有支持的模型(如 Llama 3、Mistral、Qwen 等)。
2. 下载并启动模型(命令行示例)
打开终端 / CMD,输入以下命令(以 Llama 3 8B 模型为例,最适合入门):
bash
运行
ollama run llama3:8b
- 说明:
llama3是模型名称,8b是参数规模(80 亿参数),首次运行会自动下载模型(约 4GB),耐心等待即可; - 启动成功后,终端会显示
>>>提示符,可直接输入问题与模型对话:plaintext
>>> 介绍一下自己 我是由 Meta 开发的 Llama 3 大语言模型,具备自然语言理解、对话交互、内容生成等能力...
3. 常用模型快速启动命令
| 模型名称 | 命令 | 适用场景 |
|---|---|---|
| Llama 3(8B) | ollama run llama3:8b |
日常对话、轻量任务(推荐入门) |
| Llama 3(70B) | ollama run llama3:70b |
复杂推理、专业任务(需 64GB 内存) |
| Mistral(7B) | ollama run mistral:7b |
高效轻量化,速度快 |
| 通义千问(7B) | ollama run qwen:7b |
中文优化,适合中文对话 / 创作 |
| Phi-2(2.7B) | ollama run phi:2 |
超轻量化,适合低配置设备 |
| 代码模型 CodeLlama | ollama run codellama:7b |
代码生成、调试 |
4. 退出模型对话
在 >>> 提示符后输入:
bash
运行
/exit
四、进阶配置:优化使用体验
1. 自定义模型参数(如上下文长度、温度)
启动模型时可通过参数调整性能,示例:
bash
运行
# 设置上下文窗口为 4096 tokens,温度为 0.7(温度越低回答越稳定)
ollama run llama3:8b --context 4096 --temperature 0.7
- 常用参数说明:
--context:上下文窗口大小(默认 2048,最大支持 8192,需模型支持);--temperature:随机性(0-1,0 接近确定性回答,1 更具创造性);--cpu:强制纯 CPU 运行(无 GPU 时使用);--gpu:指定 GPU 显存占用(如--gpu 4表示使用 4GB 显存)。
2. 查看已下载的模型
bash
运行
ollama list
输出示例:
plaintext
NAME ID SIZE MODIFIED
llama3:8b 7602e335b1d4 4.1 GB 2 hours ago
mistral:7b 575263d8538e 3.8 GB 1 day ago
3. 删除不需要的模型
bash
运行
# 格式:ollama rm 模型名称
ollama rm mistral:7b
4. 更新模型到最新版本
bash
运行
ollama pull llama3:8b
5. 后台运行模型(关闭终端不中断)
Windows 系统
cmd
start /min ollama serve
# 之后再启动模型(另一个终端)
ollama run llama3:8b
macOS/Linux 系统
bash
运行
# 后台启动 Ollama 服务
nohup ollama serve > ~/ollama.log 2>&1 &
# 启动模型
ollama run llama3:8b
6. 自定义模型配置文件(Modelfile)
若需修改模型默认参数(如默认上下文长度、提示词模板),可创建 Modelfile:
- 新建文本文件,命名为
Modelfile(无后缀),内容示例:modelfile
FROM llama3:8b # 设置默认上下文窗口 PARAMETER context 4096 # 设置默认温度 PARAMETER temperature 0.6 # 自定义系统提示词(让模型更专注于技术问答) SYSTEM "你是一名技术顾问,仅回答编程、AI 相关问题,语言简洁专业。" - 构建自定义模型:
bash
运行
ollama create tech-llama3 -f Modelfile - 运行自定义模型:
bash
运行
ollama run tech-llama3
五、API 调用:集成到自己的应用
Ollama 内置 API 服务,启动后可通过 HTTP 请求调用模型,支持集成到 Python、Java 等应用中。
1. 启动 API 服务
默认情况下,ollama serve 启动后会自动开启 API 服务,地址:http://localhost:11434。
2. Python 调用示例(常用)
- 确保 Ollama 服务已启动(
ollama serve); - 安装 requests 库:
bash
运行
pip install requests - 调用代码:
python
运行
import requests import json # API 端点 url = "http://localhost:11434/api/generate" # 请求参数 data = { "model": "llama3:8b", "prompt": "用 Python 写一个快速排序算法", "context": 4096, "temperature": 0.5 } # 发送请求(流式输出,实时获取结果) response = requests.post(url, json=data, stream=True) for chunk in response.iter_lines(): if chunk: result = json.loads(chunk.decode('utf-8')) print(result.get('response', ''), end='') # 结束标志 if result.get('done', False): break
3. API 核心接口说明
| 接口路径 | 方法 | 功能 | 请求参数(核心) |
|---|---|---|---|
/api/generate |
POST | 生成文本(流式) | model、prompt、temperature |
/api/chat |
POST | 多轮对话 | model、messages、context |
/api/tags |
GET | 获取已下载模型列表 | 无 |
/api/pull |
POST | 下载模型 | name(模型名称) |
/api/delete |
POST | 删除模型 | name(模型名称) |
六、常见问题排查
1. 安装失败:“curl: 无法连接到服务器”
- 原因:网络问题,无法访问 Ollama 官网;
- 解决:使用代理,或更换国内镜像(如通过魔搭社区安装,自动适配国内网络)。
2. 启动模型时提示 “内存不足”
- 解决:
- 更换更小参数的模型(如 7B 换 2B);
- 关闭其他占用内存的程序;
- 启用模型量化(Ollama 自动支持,无需手动配置)。
3. 模型对话无响应
- 排查步骤:
- 查看服务是否运行:
ps aux | grep ollama(macOS/Linux)或tasklist | findstr ollama(Windows); - 查看日志:
cat ~/ollama.log(macOS/Linux)或type C:\Users\你的用户名\.ollama\logs\ollama.log(Windows); - 重启服务:
ollama serve(重新启动)。
- 查看服务是否运行:
4. 魔搭 Notebook 中启动后无法访问
- 解决:通过魔搭「端口转发」功能映射 11434 端口:
- 点击 Notebook 顶部「端口转发」;
- 本地端口填 11434,远程端口填 11434;
- 点击「确定」,即可通过
http://localhost:11434访问服务。
5. GPU 未被调用(NVIDIA 显卡)
- 解决:
- 安装 NVIDIA 驱动(版本 525+)和 CUDA Toolkit(11.8+);
- 重启 Ollama 服务:
sudo systemctl restart ollama(Linux)或重新运行ollama serve(Windows/macOS); - 验证:启动模型后执行
nvidia-smi,查看是否有 ollama 进程占用显存。
七、总结
Ollama 的核心优势是「简单易用」,无需复杂的环境配置,通过 3 步即可完成本地大模型部署:
- 一键安装 Ollama;
- 终端输入
ollama run 模型名称下载并启动; - 直接对话或通过 API 集成到应用。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)