Ollama 是一款轻量级大模型本地部署工具,支持一键安装、快速运行 LLaMA 3、Mistral、Phi 等主流开源模型,无需复杂配置,新手也能轻松上手。本文整理了从安装到进阶使用的全流程,步骤清晰可直接复制操作,适用于 Windows、macOS、Linux 及魔搭社区 Notebook 环境。

一、前期准备

1. 硬件要求(关键)

  • CPU:推荐 4 核及以上(入门级可运行 7B 模型,复杂任务需 8 核 +);
  • 内存:至少 16GB(7B 模型建议 16GB,13B 模型建议 32GB,70B 模型建议 64GB);
  • GPU:可选 NVIDIA GPU(显存 8GB+ 支持加速,无 GPU 可纯 CPU 运行,速度较慢);
  • 网络:首次下载模型需联网,后续本地使用无需网络。

2. 系统支持

  • Windows 10/11(64 位);
  • macOS 12+(Intel/Apple Silicon 均可);
  • Linux(Ubuntu 20.04+、CentOS 8+ 等主流发行版);
  • 魔搭社区 Notebook(Ubuntu 基础环境,支持 root 权限)。

二、 Ollama 安装步骤

(一)Windows 系统安装

  1. 打开浏览器访问 Ollama 官网:https://ollama.com/
  2. 点击首页「Download for Windows」按钮,下载安装包(约 100MB);
  3. 双击安装包,默认路径安装(无需手动配置环境变量,安装程序自动完成);
  4. 安装完成后,系统会自动启动 Ollama 服务(后台运行,无桌面图标);
  5. 验证安装:按下 Win+R 输入 cmd 打开命令提示符,输入以下命令,显示版本号即安装成功:

    bash

    运行

    ollama --version
    

(二)macOS 系统安装

方式 1:官网下载安装(推荐)
  1. 访问 Ollama 官网:https://ollama.com/,点击「Download for macOS」;
  2. 拖拽安装包到「应用程序」文件夹,完成安装;
  3. 打开终端(Launchpad → 其他 → 终端),输入以下命令验证:

    bash

    运行

    ollama --version
    
方式 2:Homebrew 安装(适合熟悉终端的用户)
  1. 若未安装 Homebrew,先执行安装命令:

    bash

    运行

    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    
  2. 安装 Ollama:

    bash

    运行

    brew install ollama
    
  3. 启动 Ollama 服务:

    bash

    运行

    ollama serve
    

(三)Linux 系统安装

  1. 打开终端,执行官方一键安装脚本(自动适配 Ubuntu/CentOS 等系统):

    bash

    运行

    curl -fsSL https://ollama.com/install.sh | sh
    
  2. 安装完成后,启动服务:

    bash

    运行

    ollama serve
    
  3. 验证安装:

    bash

    运行

    ollama --version
    
  4. (可选)设置开机自启(Ubuntu 示例):

    bash

    运行

    # 创建系统服务文件
    sudo nano /etc/systemd/system/ollama.service
    
  5. 粘贴以下内容(替换 User 为你的用户名,通过 whoami 命令查询):

    ini

    [Unit]
    Description=Ollama Service
    After=network.target
    
    [Service]
    Type=simple
    User=ubuntu
    ExecStart=/usr/local/bin/ollama serve
    Restart=always
    
    [Install]
    WantedBy=multi-user.target
    
  6. 保存并启用服务:

    bash

    运行

    sudo systemctl daemon-reload
    sudo systemctl enable ollama
    sudo systemctl start ollama
    

(四)魔搭社区 Notebook 安装

魔搭 Notebook 为 Python 交互式环境,需通过终端命令安装:

  1. 新建 Notebook 单元格,执行安装命令:

    python

    运行

    import subprocess
    # 下载并安装 Ollama
    install_cmd = "curl -fsSL https://ollama.com/install.sh | sh"
    subprocess.run(install_cmd, shell=True, check=True)
    # 验证安装
    result = subprocess.run(["ollama", "--version"], capture_output=True, text=True)
    print("安装成功:", result.stdout)
    
  2. 后台启动 Ollama 服务(关闭 Notebook 不中断):

    python

    运行

    # 日志输出到 /tmp/ollama.log,方便排查问题
    cmd = "nohup ollama serve > /tmp/ollama.log 2>&1 &"
    subprocess.run(cmd, shell=True, check=True)
    # 验证服务是否运行
    check_cmd = "ps aux | grep ollama | grep -v grep"
    subprocess.run(check_cmd, shell=True, capture_output=True, text=True)
    print("Ollama 服务已后台启动")
    

三、核心操作:下载与运行模型

Ollama 支持通过单条命令下载并启动模型,无需手动配置依赖,常用模型如下:

1. 查看支持的模型

访问 Ollama 模型库:https://ollama.com/library,可查看所有支持的模型(如 Llama 3、Mistral、Qwen 等)。

2. 下载并启动模型(命令行示例)

打开终端 / CMD,输入以下命令(以 Llama 3 8B 模型为例,最适合入门):

bash

运行

ollama run llama3:8b
  • 说明:llama3 是模型名称,8b 是参数规模(80 亿参数),首次运行会自动下载模型(约 4GB),耐心等待即可;
  • 启动成功后,终端会显示 >>> 提示符,可直接输入问题与模型对话:

    plaintext

    >>> 介绍一下自己
    我是由 Meta 开发的 Llama 3 大语言模型,具备自然语言理解、对话交互、内容生成等能力...
    

3. 常用模型快速启动命令

模型名称 命令 适用场景
Llama 3(8B) ollama run llama3:8b 日常对话、轻量任务(推荐入门)
Llama 3(70B) ollama run llama3:70b 复杂推理、专业任务(需 64GB 内存)
Mistral(7B) ollama run mistral:7b 高效轻量化,速度快
通义千问(7B) ollama run qwen:7b 中文优化,适合中文对话 / 创作
Phi-2(2.7B) ollama run phi:2 超轻量化,适合低配置设备
代码模型 CodeLlama ollama run codellama:7b 代码生成、调试

4. 退出模型对话

在 >>> 提示符后输入:

bash

运行

/exit

四、进阶配置:优化使用体验

1. 自定义模型参数(如上下文长度、温度)

启动模型时可通过参数调整性能,示例:

bash

运行

# 设置上下文窗口为 4096 tokens,温度为 0.7(温度越低回答越稳定)
ollama run llama3:8b --context 4096 --temperature 0.7
  • 常用参数说明:
    • --context:上下文窗口大小(默认 2048,最大支持 8192,需模型支持);
    • --temperature:随机性(0-1,0 接近确定性回答,1 更具创造性);
    • --cpu:强制纯 CPU 运行(无 GPU 时使用);
    • --gpu:指定 GPU 显存占用(如 --gpu 4 表示使用 4GB 显存)。

2. 查看已下载的模型

bash

运行

ollama list

输出示例:

plaintext

NAME            ID              SIZE    MODIFIED
llama3:8b       7602e335b1d4    4.1 GB  2 hours ago
mistral:7b      575263d8538e    3.8 GB  1 day ago

3. 删除不需要的模型

bash

运行

# 格式:ollama rm 模型名称
ollama rm mistral:7b

4. 更新模型到最新版本

bash

运行

ollama pull llama3:8b

5. 后台运行模型(关闭终端不中断)

Windows 系统

cmd

start /min ollama serve
# 之后再启动模型(另一个终端)
ollama run llama3:8b
macOS/Linux 系统

bash

运行

# 后台启动 Ollama 服务
nohup ollama serve > ~/ollama.log 2>&1 &
# 启动模型
ollama run llama3:8b

6. 自定义模型配置文件(Modelfile)

若需修改模型默认参数(如默认上下文长度、提示词模板),可创建 Modelfile:

  1. 新建文本文件,命名为 Modelfile(无后缀),内容示例:

    modelfile

    FROM llama3:8b
    # 设置默认上下文窗口
    PARAMETER context 4096
    # 设置默认温度
    PARAMETER temperature 0.6
    # 自定义系统提示词(让模型更专注于技术问答)
    SYSTEM "你是一名技术顾问,仅回答编程、AI 相关问题,语言简洁专业。"
    
  2. 构建自定义模型:

    bash

    运行

    ollama create tech-llama3 -f Modelfile
    
  3. 运行自定义模型:

    bash

    运行

    ollama run tech-llama3
    

五、API 调用:集成到自己的应用

Ollama 内置 API 服务,启动后可通过 HTTP 请求调用模型,支持集成到 Python、Java 等应用中。

1. 启动 API 服务

默认情况下,ollama serve 启动后会自动开启 API 服务,地址:http://localhost:11434

2. Python 调用示例(常用)

  1. 确保 Ollama 服务已启动(ollama serve);
  2. 安装 requests 库:

    bash

    运行

    pip install requests
    
  3. 调用代码:

    python

    运行

    import requests
    import json
    
    # API 端点
    url = "http://localhost:11434/api/generate"
    
    # 请求参数
    data = {
        "model": "llama3:8b",
        "prompt": "用 Python 写一个快速排序算法",
        "context": 4096,
        "temperature": 0.5
    }
    
    # 发送请求(流式输出,实时获取结果)
    response = requests.post(url, json=data, stream=True)
    for chunk in response.iter_lines():
        if chunk:
            result = json.loads(chunk.decode('utf-8'))
            print(result.get('response', ''), end='')
            # 结束标志
            if result.get('done', False):
                break
    

3. API 核心接口说明

接口路径 方法 功能 请求参数(核心)
/api/generate POST 生成文本(流式) model、prompt、temperature
/api/chat POST 多轮对话 model、messages、context
/api/tags GET 获取已下载模型列表
/api/pull POST 下载模型 name(模型名称)
/api/delete POST 删除模型 name(模型名称)

六、常见问题排查

1. 安装失败:“curl: 无法连接到服务器”

  • 原因:网络问题,无法访问 Ollama 官网;
  • 解决:使用代理,或更换国内镜像(如通过魔搭社区安装,自动适配国内网络)。

2. 启动模型时提示 “内存不足”

  • 解决:
    • 更换更小参数的模型(如 7B 换 2B);
    • 关闭其他占用内存的程序;
    • 启用模型量化(Ollama 自动支持,无需手动配置)。

3. 模型对话无响应

  • 排查步骤:
    1. 查看服务是否运行:ps aux | grep ollama(macOS/Linux)或 tasklist | findstr ollama(Windows);
    2. 查看日志:cat ~/ollama.log(macOS/Linux)或 type C:\Users\你的用户名\.ollama\logs\ollama.log(Windows);
    3. 重启服务:ollama serve(重新启动)。

4. 魔搭 Notebook 中启动后无法访问

  • 解决:通过魔搭「端口转发」功能映射 11434 端口:
    1. 点击 Notebook 顶部「端口转发」;
    2. 本地端口填 11434,远程端口填 11434;
    3. 点击「确定」,即可通过 http://localhost:11434 访问服务。

5. GPU 未被调用(NVIDIA 显卡)

  • 解决:
    1. 安装 NVIDIA 驱动(版本 525+)和 CUDA Toolkit(11.8+);
    2. 重启 Ollama 服务:sudo systemctl restart ollama(Linux)或重新运行 ollama serve(Windows/macOS);
    3. 验证:启动模型后执行 nvidia-smi,查看是否有 ollama 进程占用显存。

七、总结

Ollama 的核心优势是「简单易用」,无需复杂的环境配置,通过 3 步即可完成本地大模型部署:

  1. 一键安装 Ollama;
  2. 终端输入 ollama run 模型名称 下载并启动;
  3. 直接对话或通过 API 集成到应用。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐