本地部署完整教程：实现永久免费的 AI 模型

这是一份从零开始的完整教程，涵盖 Ollama 安装、模型下载、图形界面配置，以及将本地模型接入 OpenClaw 的全流程。永久免费、数据私有、完全离线可用。

📋 目录

为什么选择本地部署？
电脑配置要求
安装 Ollama 框架
下载和运行 AI 模型
安装图形界面（推荐）
将本地模型接入 OpenClaw
模型选择建议与性能对比
高级优化与常见问题

为什么选择本地部署？

🆚 本地部署 vs 云端 API

对比项	本地部署（Ollama）	云端 API（阿里百炼）
费用	✅ 完全免费，无限调用	有免费额度，用完后按量付费
网络要求	✅ 可完全离线运行	必须联网
数据隐私	✅ 所有数据留在本地	数据上传到云端服务器
响应速度	取决于本地硬件	取决于网络延迟
模型选择	可自由切换任何开源模型	只能使用平台提供的模型

🎯 核心优势

彻底告别 Token 焦虑：一次下载，永久免费使用，想用多少次就用多少次
数据不出设备：敏感文档、代码、聊天记录全部留在本地，适合法律、金融、医疗等隐私敏感场景
毫秒级响应：本地交互延迟低至毫秒级，无需等待网络传输
模型丰富：支持 Qwen、DeepSeek、Llama 等上百款开源模型，可按需选择

电脑配置要求

📊 最低配置（能跑小模型）

项目	要求
操作系统	Windows 10/11 64位（建议 21H2 及以上版本）
内存	8GB（可运行 1B-3B 模型）
硬盘空间	至少 20GB 空闲（模型文件占用 5-25GB）
CPU	4 核以上

🚀 推荐配置（流畅运行 7B 模型）

项目	要求	你的电脑
内存	16GB 或以上	✅ 16GB 满足
硬盘	SSD固态硬盘，50GB 以上空间	请确认
显卡	NVIDIA RTX 3060 6GB 以上（可选）	可选
CPU	8 核以上	请确认

📦 不同模型的内存需求参考

模型参数	所需内存	推荐场景
1.5B（如 DeepSeek-R1:1.5b）	4-6GB	轻量级问答、文本生成
7B（如 Qwen2.5-7B）	16GB	日常对话、写作、代码（最推荐）
8B（如 Llama 3.1-8B）	16-20GB	通用能力强，英文优秀
14B-32B	32GB+	复杂推理、专业领域

💡 提示：你的电脑是 16GB 内存，选择 7B 参数的模型是最佳平衡点。

安装 Ollama 框架

步骤 1：下载 Ollama 安装包

访问 Ollama 官网：https://ollama.com/download
点击 「Download for Windows」 下载安装程序
文件名类似 OllamaSetup.exe（当前版本 v0.5.7 或更高）

💡 国内加速：如果官网下载慢，可以使用魔塔 ModelScope 国内镜像源：
pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/
modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux

步骤 2：运行安装程序

双击下载的 .exe 文件
点击 「Install」 开始安装
等待安装完成（约 1-2 分钟）
安装完成后，Ollama 会自动在后台运行（系统托盘可以看到图标）

💡 自定义安装目录：如果想安装到其他盘，用命令行安装：
OllamaSetup.exe /DIR="D:\Development\ollama"

步骤 3：验证安装

按 Win + S 搜索 「PowerShell」 或 「命令提示符」
打开终端，输入以下命令：

ollama --version

成功标志：显示版本号，如 ollama version 0.5.7

步骤 4（可选）：配置国内镜像加速

由于模型文件较大（数 GB），国内下载较慢，配置镜像可以大幅提速：

右键 「此电脑」 → 「属性」 → 「高级系统设置」
点击 「环境变量」
在「系统变量」中点击 「新建」
- 变量名：OLLAMA_MODEL_SERVER
- 变量值：https://mirror.ollama.com
点击确定，重启电脑使设置生效

步骤 5（可选）：修改模型下载位置

模型默认下载到 C 盘（C:\Users\用户名\.ollama\models），如果 C 盘空间不足，可以修改：

按上述步骤打开环境变量设置
新建系统变量：
- 变量名：OLLAMA_MODELS
- 变量值：D:\ollama\models（改成你想要的位置）
点击确定，重启电脑

下载和运行 AI 模型

🔍 查找可用的模型

访问 Ollama 模型库：https://ollama.com/search

📥 推荐模型下载命令

根据你的 16GB 内存配置，以下是最推荐的几款 7B 级别模型：

模型	命令	大小	说明
Qwen2.5-7B	`ollama pull qwen2.5:7b`	~4.1GB	阿里千问，中文能力最强，综合首选
DeepSeek-R1:7B	`ollama pull deepseek-r1:7b`	~4.5GB	深度求索，代码能力最强
Llama 3.1-8B	`ollama pull llama3.1:8b`	~4.7GB	Meta 出品，英文能力强
Qwen2.5-Coder:7B	`ollama pull qwen2.5-coder:7b`	~4.1GB	专门优化的代码模型

💡 新手推荐：先从 Qwen2.5-7B 开始，这是阿里千问的本地版本，中文体验最好。

⬇️ 下载模型

打开 PowerShell，输入以下命令（以 Qwen2.5-7B 为例）：

ollama pull qwen2.5:7b

下载过程说明：

首次运行会自动下载模型（约 4GB）
下载时间取决于网速，有镜像加速约 10-30 分钟
如果下载中断，重新运行命令可以续传

🚀 运行模型

下载完成后，输入以下命令进入对话模式：

ollama run qwen2.5:7b

测试：

>>> 你好，请介绍一下你自己

输入 /bye 或按 Ctrl + D 退出对话。

📋 模型管理命令

命令	用途
`ollama list`	查看已下载的模型列表
`ollama pull 模型名`	下载指定模型
`ollama rm 模型名`	删除指定模型
`ollama run 模型名`	运行指定模型
`ollama ps`	查看当前运行的模型

安装图形界面（推荐）

命令行虽然能用，但不够美观。以下是两种最流行的图形界面方案。

方案一：Cherry Studio（最简单，强烈推荐）

Cherry Studio 是一款免费的桌面客户端，界面美观，配置简单，支持知识库功能。

下载安装

访问 Cherry Studio 官网：https://cherry-ai.com
下载 Windows 安装包（Cherry-Studio-Setup.exe）
双击运行安装

配置本地模型

打开 Cherry Studio
点击左下角 「设置」 图标
选择左侧 「模型服务」
找到 「Ollama」，打开右上角的开关
API 地址默认 http://localhost:11434（不要修改）
点击 「管理」 按钮
在弹出窗口中点击 「添加」，选择你已经下载的模型（如 qwen2.5:7b）
点击 「关闭」，返回聊天界面
在顶部选择模型为 qwen2.5:7b，开始对话

配置知识库（可选）

Cherry Studio 支持上传文档构建私有知识库：

点击左侧 「知识库」 图标
点击 「新建知识库」，输入名称
点击 「添加文件」，上传你的文档（支持 PDF、Word、TXT 等）
在对话时，点击输入框下方的 「知识库」 按钮，选择该知识库
AI 的回答会引用你上传的文档内容

方案二：Chatbox（轻量级替代）

Chatbox 是另一款轻量级桌面客户端。

下载安装

访问 Chatbox 官网：https://chatboxai.app
下载 Windows 版本安装包
双击运行安装

配置

打开 Chatbox
点击左下角 「设置」
选择 「模型提供方」 → 「Ollama」
API 地址保持 http://localhost:11434
模型选择 qwen2.5:7b
开始对话

方案三：Open WebUI（功能最全）

Open WebUI 是功能最完整的 Web 界面，支持对话管理、知识库、多用户等高级功能。

前提条件：安装 Docker Desktop

访问 https://www.docker.com/products/docker-desktop
下载并安装 Docker Desktop
启动 Docker Desktop（需要 WSL2，按提示安装即可）

安装 Open WebUI

以管理员身份打开 PowerShell，输入以下命令：

docker run -d -p 3000:8080 `
  --add-host=host.docker.internal:host-gateway `
  -v open-webui:/app/backend/data `
  --name open-webui `
  --restart always `
  ghcr.io/open-webui/open-webui:main

等待镜像下载和启动（约 2-5 分钟）。

使用

浏览器访问 http://localhost:3000
首次访问需要注册账号（本地账号，免费）
登录后，点击左下角设置，确认模型已自动识别
开始对话

💡 提示：Open WebUI 会自动检测本地的 Ollama 服务，无需手动配置模型。

将本地模型接入 OpenClaw

如果你之前已经安装了 OpenClaw，现在可以把本地 Ollama 模型接入进去，让 OpenClaw 调用你本地的免费模型。

步骤 1：确认 Ollama 服务正在运行

ollama serve

如果显示 Listening on 127.0.0.1:11434，说明服务已启动。

💡 提示：Ollama 安装后默认开机自启，通常无需手动启动。

步骤 2：配置 OpenClaw

有两种方式，推荐使用 Web 控制台。

方式一：Web 控制台配置（推荐）

启动 OpenClaw：openclaw dashboard
在浏览器中打开 http://127.0.0.1:18789/
点击左侧 「配置」 → 「RAW」
在 JSON 配置中添加 Ollama 提供商：

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://127.0.0.1:11434",
        "api": "ollama",
        "models": [
          {
            "id": "qwen2.5:7b",
            "name": "Qwen2.5-7B"
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5:7b"
      }
    }
  }
}

点击 「Save」 保存

方式二：命令行配置

openclaw config set models.providers.ollama.baseUrl "http://127.0.0.1:11434"
openclaw config set models.providers.ollama.api "ollama"
openclaw config set agents.defaults.model.primary "ollama/qwen2.5:7b"

步骤 3：重启 OpenClaw

openclaw gateway restart
openclaw dashboard

现在 OpenClaw 就会使用你本地部署的免费模型了！

模型选择建议与性能对比

🏆 7B 模型详细对比

根据你的需求（写博客 + Typecho + 日常对话），以下是详细的对比数据：

模型	中文能力	代码能力	通用能力	内存需求	许可证	推荐指数
Qwen2.5-7B	⭐⭐⭐⭐⭐ 最强	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~4.1GB	Apache 2.0	⭐⭐⭐⭐⭐
DeepSeek-R1:7B	⭐⭐⭐⭐	⭐⭐⭐⭐⭐ 最强	⭐⭐⭐⭐	~4.5GB	MIT	⭐⭐⭐⭐⭐
Llama 3.1-8B	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~4.7GB	商业许可	⭐⭐⭐⭐

📊 性能评测数据

根据专业评测平台的对比数据：

评测维度	DeepSeek-R1:7B	Qwen2.5-7B
LiveCodeBench（代码能力）	37.6%	18.2%
中文理解	良好	优秀
数学推理	较强	中等
知识截止日期	2025-01-20	2024-09-19

🎯 针对你的需求的选择建议

博客类型	推荐模型	原因
中文技术博客	Qwen2.5-7B	中文表达最自然，技术内容准确
代码教程/开发笔记	DeepSeek-R1:7B	LiveCodeBench 得分 37.6%，代码生成能力领先
英文/双语博客	Llama 3.1-8B	英文表达地道，多语言切换流畅

💡 最终推荐

如果你只想选一个最好的：Qwen2.5-7B

理由：中文能力最强，128K 超长上下文，写博客、日常对话都能完美胜任。

如果你想兼顾代码和中文：两个都装！qwen2.5:7b（写文章）+ deepseek-r1:7b（写代码），根据任务切换使用。

# 下载两个模型
ollama pull qwen2.5:7b
ollama pull deepseek-r1:7b

# 查看已下载
ollama list

高级优化与常见问题

⚡ 性能优化技巧

1. 启用 GPU 加速

如果你的电脑有 NVIDIA 显卡：

确认驱动已安装：nvidia-smi
安装 CUDA Toolkit（12.x 版本）
运行模型时会自动使用 GPU

2. 使用量化版本节省内存

对于资源受限环境，可以使用 4bit 量化版本：

# 注意：Ollama 默认使用量化版本，此命令适用于手动指定
ollama run deepseek-r1:7b --quantize q4_0

量化版本内存占用可降低约 40%，但会略微影响生成质量。

3. 调整运行参数

创建自定义运行配置：

# 设置上下文窗口、温度等参数
ollama run qwen2.5:7b --num_ctx 4096 --temperature 0.7

关键参数说明：

num_ctx：上下文窗口大小（默认 2048，最大 128K）
temperature：生成随机性（0.1-1.0，越低越保守）

❓ 常见问题排查

Q1：下载模型时提示「连接超时」或速度极慢

原因：网络问题，GitHub 和 Ollama 官方源在国内访问不稳定。

解决方法：

配置国内镜像源（见安装步骤 4）

或使用魔塔 ModelScope 下载：

pip install modelscope
modelscope download --model=modelscope/qwen2.5-7b --local_dir ./qwen2.5-7b

Q2：模型运行时提示「内存不足」

原因：模型太大，内存不够。

解决方法：

换用更小的模型（如从 7B 换成 1.5B）
关闭其他占用内存的程序
增加 Windows 虚拟内存

Q3：Ollama 服务无法启动

检查方法：

# 查看服务状态
sc query Ollama

# 手动启动服务
net start Ollama

# 如果失败，查看日志
ollama serve

Q4：OpenClaw 无法连接 Ollama

检查：

Ollama 服务是否运行：访问 http://127.0.0.1:11434
模型是否已下载：ollama list
OpenClaw 配置中的模型名称是否与 ollama list 显示的一致

Q5：模型回答速度很慢

原因：纯 CPU 运行。

优化建议：

如果有 NVIDIA 显卡，确保安装了最新的显卡驱动
使用更小的模型（如从 7B 换成 1.5B）
关闭其他占用 CPU 的程序

Q6：WSL2 安装失败（如果使用 WSL 方案）

解决方法：

检查 BIOS 中虚拟化支持是否开启

以管理员身份运行 PowerShell，执行：

dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
restart

🔧 开机自启配置

如果希望 Ollama 开机自动运行：

# 以管理员身份运行
New-Service -Name "OllamaService" -BinaryPathName "C:\Program Files\Ollama\ollama.exe serve" -DisplayName "Ollama AI Service" -StartupType Automatic

📊 资源监控

监控模型运行时的资源使用情况：

# 查看当前运行的模型
ollama ps

# 使用任务管理器监控
# 或使用 nvidia-smi 监控 GPU（如果有）
nvidia-smi -l 1

总结

恭喜！你已经完成了本地 AI 模型的完整部署。现在你可以：

✅ 完成的内容

✅ 安装 Ollama 框架
✅ 下载 7B 级别开源模型（Qwen2.5-7B / DeepSeek-R1:7B）
✅ 配置 Cherry Studio 或 Open WebUI 图形界面
✅ 将本地模型接入 OpenClaw

🎯 下一步建议

试试写 Typecho 博客：在 Cherry Studio 或 OpenClaw 中，让 AI 帮你生成一篇博客，然后手动复制到 Typecho 后台发布
构建个人知识库：在 Cherry Studio 中上传你的文档，让 AI 基于私有数据回答问题
探索更多模型：下载其他模型对比效果，找到最适合你的那一款

📚 资源链接

资源	链接
Ollama 官网	https://ollama.com
Ollama 模型库	https://ollama.com/search
Cherry Studio	https://cherry-ai.com
Open WebUI	https://openwebui.com
魔塔 ModelScope	https://modelscope.cn

⚠️ 安全提醒

本地模型运行在 127.0.0.1:11434，默认只有本机可访问，无需担心外部攻击
如果需要局域网共享，请配置防火墙白名单
模型文件本身不包含敏感信息，但对话记录保存在本地，请注意备份

现在，你已经拥有了一个永久免费、数据私有的本地 AI 助手！ 🎉

登录

本地部署完整教程：实现永久免费的 AI 模型

📋 目录

为什么选择本地部署？

🆚 本地部署 vs 云端 API

🎯 核心优势

电脑配置要求

📊 最低配置（能跑小模型）

🚀 推荐配置（流畅运行 7B 模型）

📦 不同模型的内存需求参考

安装 Ollama 框架

步骤 1：下载 Ollama 安装包

步骤 2：运行安装程序

步骤 3：验证安装

步骤 4（可选）：配置国内镜像加速

步骤 5（可选）：修改模型下载位置

下载和运行 AI 模型

🔍 查找可用的模型

📥 推荐模型下载命令

⬇️ 下载模型

🚀 运行模型

📋 模型管理命令

安装图形界面（推荐）

方案一：Cherry Studio（最简单，强烈推荐）

下载安装

配置本地模型

配置知识库（可选）

方案二：Chatbox（轻量级替代）

下载安装

配置

方案三：Open WebUI（功能最全）

前提条件：安装 Docker Desktop

安装 Open WebUI

使用

将本地模型接入 OpenClaw

步骤 1：确认 Ollama 服务正在运行

步骤 2：配置 OpenClaw

方式一：Web 控制台配置（推荐）

方式二：命令行配置

步骤 3：重启 OpenClaw

模型选择建议与性能对比

🏆 7B 模型详细对比

📊 性能评测数据

🎯 针对你的需求的选择建议

💡 最终推荐

高级优化与常见问题

⚡ 性能优化技巧

1. 启用 GPU 加速

2. 使用量化版本节省内存

3. 调整运行参数

❓ 常见问题排查

Q1：下载模型时提示「连接超时」或速度极慢

Q2：模型运行时提示「内存不足」

Q3：Ollama 服务无法启动

Q4：OpenClaw 无法连接 Ollama

Q5：模型回答速度很慢

Q6：WSL2 安装失败（如果使用 WSL 方案）

🔧 开机自启配置

📊 资源监控

总结

✅ 完成的内容

🎯 下一步建议

📚 资源链接

⚠️ 安全提醒

暂无评论

LABEL CLASSIFICATION

CATEGORY ARTICLES

LATEST RELEASE

NEWEST REPLIES