AI大模型本地化部署文档（windows环境）

m0_73774439

2191人浏览 · 2025-03-04 13:28:04

m0_73774439 · 2025-03-04 13:28:04 发布

一、技术选型：

ollama：AI 大模型本地服务

deepseek-1:32b ：推理大模型，用于对话聊天

bge-m3:latest ：文本嵌入大模型，用于本地文档建立RAG知识库

minicpm-v ：多模态大模型，用于文件图片视频分析

docker：虚拟化容器，用于运行 dify

dify：开源的大语言模型（LLM）应用开发平台，生成式 AI 应用的创建、部署与持续优化

二、硬件需求

CPU：i9-14900k 24 核/32 线程或同级别E系列服务器CPU

内存：64G DDR5 双通道

显卡：RTX3090 24G *1(最低，测试用) RTX3090 24G *2（推荐，高精度，可多人并发使用，符合实际使用情况）

硬盘：2T固态

主板：服务器主板/2个CPU位/4个以上内存卡槽/3个以上PCIe3.0卡槽/2个NVMe卡槽/2个千兆以太网口

系统：linux/windows server 2022/windows10/11

演示机器规格：

CPU：i7-12700F 2.10 GHz 12核20线程

内存：16G DDR5 双通道

显卡：RTX3060TI 12G *1

硬盘：1T固态

系统：windows 10

三、搭建步骤【主要安装包已经放入同级文件夹中】

1.下载安装ollama，拉取模型

1.1 下载

下载链接：Download Ollama on macOS

或

1.2 安装ollama

将下载的文件 OllamaSetup.exe 安装

1.3 验证是否安装成功

ollama -v

1.4 拉取模型

#deepseek 模型

cmd 命令：ollama run deepseek-r1:32b

#bge-m3 模型

cmd 命令：ollama run bge-m3:latest

#minicpm-v 模型

cmd 命令：ollama runaiden_lu/minicpm-v2.6:Q4_K_M 或 minicpm-v

1.5 查看拉取的模型

ollama list

2.下载安装docker

2.1 下载

下载链接：Docker: Accelerated Container Application Development

2.2 安装

将下载的文件 Docker Desktop Installer.exe 安装，

鼠标右键，以管理员身份运行

2.3 验证

命令：docker -v

2.4 配置国内镜像源

"registry-mirrors": [

"DockerHub镜像加速器 - 免费Docker镜像源国内加速 - DockerHub加速国内解决方案"

]

如果镜像源不可用，则跟换可用镜像源

3.在docker中拉取dify的镜像

3.1 下载dify

链接：https://github.com/langgenius/dify

3.2 拉取

解压下载的 zip 压缩包

找到该文件夹下的文件

dify-main -> docker -> .env.example

将该文件重命名命名为

.env

打开.env 文件在末尾添加

#启用自定义模型

CUSTOM_MODEL_ENABLED=true

OLLAMA_API_BASE_URL=host.docker.internal:11434

在该文件所在的文件夹下，鼠标右键点击在终端中打开

在 docker 打开的前提下，在命令框中输入以下命令，将 dify 上传到 docker

docker compose up -d

3.3 验证

打开 Docker Desktop，可看到上传的镜像

4.在dify中设置模型，搭建知识库，创建应用

4.1 打开界面

浏览器登录，打开以下链接：http://localhost/signin

4.2 添加大模型

登录后，点击右上角头像 -> 设置，依次添加 deepseek/bge-m3/minicp

4.3 创建知识库

拖拽文件，创建知识库

4.3 创建应用

4.4 创建自定义的工作流，组合使用AI大模型和各类工具知识库

使用效果展示

4.5 API 接口使用

API 文档

创建 API 秘钥

前端调用接口

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模

cover

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

所有评论(0)

查看更多评论

m0_73774439

已为社区贡献4条内容