Ollama 完整使用流程：从安装到模型部署全指南

启动模型时可通过参数调整性能，示例：bash运行# 设置上下文窗口为 4096 tokens，温度为 0.7（温度越低回答越稳定）常用参数说明：--context：上下文窗口大小（默认 2048，最大支持 8192，需模型支持）；：随机性（0-1，0 接近确定性回答，1 更具创造性）；--cpu：强制纯 CPU 运行（无 GPU 时使用）；--gpu：指定 GPU 显存占用（如--gpu 4表示使

ggb_aaa

2731人浏览 · 2025-12-12 11:49:28

ggb_aaa · 2025-12-12 11:49:28 发布

Ollama 是一款轻量级大模型本地部署工具，支持一键安装、快速运行 LLaMA 3、Mistral、Phi 等主流开源模型，无需复杂配置，新手也能轻松上手。本文整理了从安装到进阶使用的全流程，步骤清晰可直接复制操作，适用于 Windows、macOS、Linux 及魔搭社区 Notebook 环境。

一、前期准备

1. 硬件要求（关键）

CPU：推荐 4 核及以上（入门级可运行 7B 模型，复杂任务需 8 核 +）；
内存：至少 16GB（7B 模型建议 16GB，13B 模型建议 32GB，70B 模型建议 64GB）；
GPU：可选 NVIDIA GPU（显存 8GB+ 支持加速，无 GPU 可纯 CPU 运行，速度较慢）；
网络：首次下载模型需联网，后续本地使用无需网络。

2. 系统支持

Windows 10/11（64 位）；
macOS 12+（Intel/Apple Silicon 均可）；
Linux（Ubuntu 20.04+、CentOS 8+ 等主流发行版）；
魔搭社区 Notebook（Ubuntu 基础环境，支持 root 权限）。

二、 Ollama 安装步骤

（一）Windows 系统安装

打开浏览器访问 Ollama 官网：https://ollama.com/；
点击首页「Download for Windows」按钮，下载安装包（约 100MB）；
双击安装包，默认路径安装（无需手动配置环境变量，安装程序自动完成）；
安装完成后，系统会自动启动 Ollama 服务（后台运行，无桌面图标）；
验证安装：按下 Win+R 输入 cmd 打开命令提示符，输入以下命令，显示版本号即安装成功：
bash

运行
```
ollama --version
```

（二）macOS 系统安装

方式 1：官网下载安装（推荐）

访问 Ollama 官网：https://ollama.com/，点击「Download for macOS」；
拖拽安装包到「应用程序」文件夹，完成安装；
打开终端（Launchpad → 其他 → 终端），输入以下命令验证：
bash

运行
```
ollama --version
```

方式 2：Homebrew 安装（适合熟悉终端的用户）

若未安装 Homebrew，先执行安装命令：

bash

运行

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装 Ollama：
bash

运行
```
brew install ollama
```
启动 Ollama 服务：
bash

运行
```
ollama serve
```

（三）Linux 系统安装

打开终端，执行官方一键安装脚本（自动适配 Ubuntu/CentOS 等系统）：
bash

运行
```
curl -fsSL https://ollama.com/install.sh | sh
```
安装完成后，启动服务：
bash

运行
```
ollama serve
```
验证安装：
bash

运行
```
ollama --version
```

（可选）设置开机自启（Ubuntu 示例）：

bash

运行

# 创建系统服务文件
sudo nano /etc/systemd/system/ollama.service

粘贴以下内容（替换 User 为你的用户名，通过 whoami 命令查询）：

ini

[Unit]
Description=Ollama Service
After=network.target

[Service]
Type=simple
User=ubuntu
ExecStart=/usr/local/bin/ollama serve
Restart=always

[Install]
WantedBy=multi-user.target

保存并启用服务：

bash

运行

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

（四）魔搭社区 Notebook 安装

魔搭 Notebook 为 Python 交互式环境，需通过终端命令安装：

新建 Notebook 单元格，执行安装命令：

python

运行

import subprocess
# 下载并安装 Ollama
install_cmd = "curl -fsSL https://ollama.com/install.sh | sh"
subprocess.run(install_cmd, shell=True, check=True)
# 验证安装
result = subprocess.run(["ollama", "--version"], capture_output=True, text=True)
print("安装成功：", result.stdout)

后台启动 Ollama 服务（关闭 Notebook 不中断）：

python

运行

# 日志输出到 /tmp/ollama.log，方便排查问题
cmd = "nohup ollama serve > /tmp/ollama.log 2>&1 &"
subprocess.run(cmd, shell=True, check=True)
# 验证服务是否运行
check_cmd = "ps aux | grep ollama | grep -v grep"
subprocess.run(check_cmd, shell=True, capture_output=True, text=True)
print("Ollama 服务已后台启动")

三、核心操作：下载与运行模型

Ollama 支持通过单条命令下载并启动模型，无需手动配置依赖，常用模型如下：

1. 查看支持的模型

访问 Ollama 模型库：https://ollama.com/library，可查看所有支持的模型（如 Llama 3、Mistral、Qwen 等）。

2. 下载并启动模型（命令行示例）

打开终端 / CMD，输入以下命令（以 Llama 3 8B 模型为例，最适合入门）：

bash

运行

ollama run llama3:8b

说明：llama3 是模型名称，8b 是参数规模（80 亿参数），首次运行会自动下载模型（约 4GB），耐心等待即可；

启动成功后，终端会显示 >>> 提示符，可直接输入问题与模型对话：

plaintext

>>> 介绍一下自己
我是由 Meta 开发的 Llama 3 大语言模型，具备自然语言理解、对话交互、内容生成等能力...

3. 常用模型快速启动命令

模型名称	命令	适用场景
Llama 3（8B）	`ollama run llama3:8b`	日常对话、轻量任务（推荐入门）
Llama 3（70B）	`ollama run llama3:70b`	复杂推理、专业任务（需 64GB 内存）
Mistral（7B）	`ollama run mistral:7b`	高效轻量化，速度快
通义千问（7B）	`ollama run qwen:7b`	中文优化，适合中文对话 / 创作
Phi-2（2.7B）	`ollama run phi:2`	超轻量化，适合低配置设备
代码模型 CodeLlama	`ollama run codellama:7b`	代码生成、调试

4. 退出模型对话

在 >>> 提示符后输入：

bash

运行

/exit

四、进阶配置：优化使用体验

1. 自定义模型参数（如上下文长度、温度）

启动模型时可通过参数调整性能，示例：

bash

运行

# 设置上下文窗口为 4096 tokens，温度为 0.7（温度越低回答越稳定）
ollama run llama3:8b --context 4096 --temperature 0.7

常用参数说明：
- --context：上下文窗口大小（默认 2048，最大支持 8192，需模型支持）；
- --temperature：随机性（0-1，0 接近确定性回答，1 更具创造性）；
- --cpu：强制纯 CPU 运行（无 GPU 时使用）；
- --gpu：指定 GPU 显存占用（如 --gpu 4 表示使用 4GB 显存）。

2. 查看已下载的模型

bash

运行

ollama list

输出示例：

plaintext

NAME            ID              SIZE    MODIFIED
llama3:8b       7602e335b1d4    4.1 GB  2 hours ago
mistral:7b      575263d8538e    3.8 GB  1 day ago

3. 删除不需要的模型

bash

运行

# 格式：ollama rm 模型名称
ollama rm mistral:7b

4. 更新模型到最新版本

bash

运行

ollama pull llama3:8b

5. 后台运行模型（关闭终端不中断）

Windows 系统

cmd

start /min ollama serve
# 之后再启动模型（另一个终端）
ollama run llama3:8b

macOS/Linux 系统

bash

运行

# 后台启动 Ollama 服务
nohup ollama serve > ~/ollama.log 2>&1 &
# 启动模型
ollama run llama3:8b

6. 自定义模型配置文件（Modelfile）

若需修改模型默认参数（如默认上下文长度、提示词模板），可创建 Modelfile：

新建文本文件，命名为 Modelfile（无后缀），内容示例：

modelfile

FROM llama3:8b
# 设置默认上下文窗口
PARAMETER context 4096
# 设置默认温度
PARAMETER temperature 0.6
# 自定义系统提示词（让模型更专注于技术问答）
SYSTEM "你是一名技术顾问，仅回答编程、AI 相关问题，语言简洁专业。"

构建自定义模型：
bash

运行
```
ollama create tech-llama3 -f Modelfile
```
运行自定义模型：
bash

运行
```
ollama run tech-llama3
```

五、API 调用：集成到自己的应用

Ollama 内置 API 服务，启动后可通过 HTTP 请求调用模型，支持集成到 Python、Java 等应用中。

1. 启动 API 服务

默认情况下，ollama serve 启动后会自动开启 API 服务，地址：http://localhost:11434。

2. Python 调用示例（常用）

确保 Ollama 服务已启动（ollama serve）；
安装 requests 库：
bash

运行
```
pip install requests
```

调用代码：

python

运行

import requests
import json

# API 端点
url = "http://localhost:11434/api/generate"

# 请求参数
data = {
    "model": "llama3:8b",
    "prompt": "用 Python 写一个快速排序算法",
    "context": 4096,
    "temperature": 0.5
}

# 发送请求（流式输出，实时获取结果）
response = requests.post(url, json=data, stream=True)
for chunk in response.iter_lines():
    if chunk:
        result = json.loads(chunk.decode('utf-8'))
        print(result.get('response', ''), end='')
        # 结束标志
        if result.get('done', False):
            break

3. API 核心接口说明

接口路径	方法	功能	请求参数（核心）
`/api/generate`	POST	生成文本（流式）	model、prompt、temperature
`/api/chat`	POST	多轮对话	model、messages、context
`/api/tags`	GET	获取已下载模型列表	无
`/api/pull`	POST	下载模型	name（模型名称）
`/api/delete`	POST	删除模型	name（模型名称）

六、常见问题排查

1. 安装失败：“curl: 无法连接到服务器”

原因：网络问题，无法访问 Ollama 官网；
解决：使用代理，或更换国内镜像（如通过魔搭社区安装，自动适配国内网络）。

2. 启动模型时提示 “内存不足”

解决：
- 更换更小参数的模型（如 7B 换 2B）；
- 关闭其他占用内存的程序；
- 启用模型量化（Ollama 自动支持，无需手动配置）。

3. 模型对话无响应

排查步骤：
1. 查看服务是否运行：ps aux | grep ollama（macOS/Linux）或 tasklist | findstr ollama（Windows）；
2. 查看日志：cat ~/ollama.log（macOS/Linux）或 type C:\Users\你的用户名\.ollama\logs\ollama.log（Windows）；
3. 重启服务：ollama serve（重新启动）。

4. 魔搭 Notebook 中启动后无法访问

解决：通过魔搭「端口转发」功能映射 11434 端口：
1. 点击 Notebook 顶部「端口转发」；
2. 本地端口填 11434，远程端口填 11434；
3. 点击「确定」，即可通过 http://localhost:11434 访问服务。

5. GPU 未被调用（NVIDIA 显卡）

解决：
1. 安装 NVIDIA 驱动（版本 525+）和 CUDA Toolkit（11.8+）；
2. 重启 Ollama 服务：sudo systemctl restart ollama（Linux）或重新运行 ollama serve（Windows/macOS）；
3. 验证：启动模型后执行 nvidia-smi，查看是否有 ollama 进程占用显存。