
《Ollama本地部署大模型完整教程》
适合 AI 内容站、教程站、公众号与知识库发布使用
更新日期:2026年5月2日 | 文档类型:网站发布教程 + SEO 文档
网站发布信息速览
| 项目 | 内容 |
| 爆款标题 | Ollama本地部署大模型完整教程:从下载安装到模型运行,新手也能一次跑通 |
| 推荐分类 | 保姆级教程 / 安装部署教程;AI工具库 / 文本生成与对话;实战工作流 / 自动化工作流 |
| 适合读者 | 想在电脑、本地服务器或内网环境运行开源大模型的新手、开发者、自媒体作者、企业知识库搭建者 |
| 核心收益 | 学会安装 Ollama、下载模型、运行本地问答、调用 API、接入 WebUI/VS Code/自动化脚本,并掌握常见报错排查 |
| 建议阅读时长 | 12-18 分钟 |
| 发布建议 | 正文适合配 3-5 张流程图;代码命令建议使用代码块;FAQ 可放在文章底部提升长尾搜索覆盖 |
目录
1. Ollama 是什么,为什么适合本地部署大模型
2. 安装前准备:电脑配置、系统版本、磁盘与网络
3. Windows、macOS、Linux、Docker 安装流程
4. 下载并运行第一个模型
5. 常用命令、模型管理与存储目录
6. API 调用、OpenAI 兼容接口与 Python 示例
7. 接入 WebUI、VS Code、知识库和自动化工作流
8. 性能优化、常见报错与安全建议
9. FAQ、相关阅读和 SEO 文档
一、为什么越来越多人选择 Ollama 本地部署大模型?
过去使用大模型,很多人第一反应是打开 ChatGPT、Claude、Gemini 或国内大模型网页。但当你想处理私有资料、内网文档、代码项目、客户数据,或者希望把 AI 能力接入自己的工具链时,本地部署就变得很有价值。Ollama 的定位正是:把开源大模型像普通软件一样安装到电脑或服务器上,通过命令行和 API 快速运行。
Ollama 的优势可以概括为四点:安装门槛低、模型库丰富、默认提供本地 API、适合与各种开发工具和知识库系统集成。对新手来说,它比手动配置 CUDA、Python 环境、模型权重和推理框架简单得多;对开发者来说,它又保留了足够的可控性,可以进行模型管理、参数调优、Modelfile 自定义、Embedding 与 RAG 接入。
| 提示:适合网站导语 如果你想写一篇读者能直接照着操作的教程,Ollama 是本地大模型入门最合适的切入口之一:安装快、命令少、错误可排查、应用场景广。 |

图 1:Ollama 本地部署大模型的完整流程
二、安装前准备:先判断你的电脑能跑多大的模型
本地大模型不是“装上就一定流畅”。它对内存、显存、磁盘空间和散热都有要求。新手最常见的误区是:看到模型排行榜就直接下载 30B、70B 甚至更大的模型,结果下载几个小时后运行极慢,甚至直接内存不足。正确做法是:先用小模型跑通流程,再根据电脑配置逐步升级模型。
Ollama 官方 Windows 文档提醒,安装二进制本身需要空间,模型文件还会额外占用大量磁盘,可能达到几十 GB 到上百 GB。因此,部署前至少要确认系统盘或模型盘有足够空间。

图 2:不同电脑配置对应的模型选择建议
安装前检查清单
| 检查项 | 建议 | 原因 |
| 系统版本 | Windows 10+、macOS 14 Sonoma+、主流 Linux 发行版 | 避免安装包不兼容或后台服务无法启动 |
| 内存 | 8GB 可入门;16GB 更推荐;32GB+ 更适合 7B/8B 以上模型 | 模型推理会占用大量内存和显存 |
| 磁盘空间 | 预留 30GB 起步;重度使用建议 100GB+ 独立空间 | 模型文件常常是几 GB 到几十 GB |
| 网络环境 | 首次下载模型需要稳定网络 | 模型拉取失败通常与网络、代理或磁盘有关 |
| 显卡/芯片 | Apple Silicon、NVIDIA 独显或较新的 CPU 更适合本地推理 | 硬件加速会显著影响速度 |
| 使用目标 | 写作/问答选通用模型;代码选 coder 模型;知识库选 embedding 模型 | 不同模型面向的任务不同 |
三、Windows 安装 Ollama 全流程
Windows 用户最简单的方式是访问 Ollama 官方下载页,下载 Windows 安装包;也可以在 PowerShell 中使用官方安装命令。官方页面显示 Windows 版本要求为 Windows 10 或更高版本。
方法 A:官网下载器安装
- 打开 Ollama 官网下载页,选择 Windows。
- 下载并运行安装包。默认情况下不需要复杂配置。
- 安装完成后,打开 PowerShell 或 Windows Terminal。
- 输入 ollama –version,如果能看到版本号,说明安装成功。
ollama –version
方法 B:PowerShell 一行命令安装
适合熟悉终端的用户。以普通 PowerShell 运行即可,遇到权限或网络问题时再切换管理员模式。
irm https://ollama.com/install.ps1 | iex
Windows 安装后建议做的 3 件事
- 确认 Ollama 后台服务是否正在运行。可以在系统托盘、开始菜单或任务管理器中查看。
- 确认模型存储磁盘是否足够。如果系统盘空间紧张,应提前规划模型目录。
- 先下载 1B、4B、7B/8B 量级模型进行测试,不要一开始就下载几十 GB 的大模型。
四、macOS 安装 Ollama 全流程
macOS 用户要特别注意系统版本和芯片类型。官方下载页显示 macOS 版本要求为 macOS 14 Sonoma 或更高版本。Apple Silicon(M1/M2/M3/M4)通常更适合本地模型推理;Intel Mac 也可以尝试小模型,但速度和体验要谨慎预期。
方法 A:官网下载 macOS 版本
- 进入 Ollama 官方下载页,选择 macOS。
- 下载后按提示安装,并将 Ollama 放入应用程序目录。
- 打开 Ollama 应用,或直接打开终端执行命令。
- 终端输入 ollama –version 验证安装。
方法 B:终端脚本安装
curl -fsSL https://ollama.com/install.sh | sh
| 提示:Mac 用户建议 如果你是 Apple Silicon Mac,优先尝试 4B、7B/8B 模型;如果是 Intel Mac,建议先从 1B、2B 或轻量模型开始。 |
五、Linux 安装 Ollama 全流程
Linux 是本地部署和服务器部署的常见环境。Ollama 官方 Linux 下载页提供一行安装命令,适合 Ubuntu、Debian、CentOS/RHEL 系等常见环境。安装后通常会以后台服务方式运行。
curl -fsSL https://ollama.com/install.sh | sh
Linux 安装后验证
ollama –version
ollama list
ollama run gemma3
如果使用 systemd 管理服务,可以检查服务状态。
systemctl status ollama
如果你要在服务器上给局域网或其他容器访问 Ollama,需要额外配置监听地址、防火墙和反向代理。面向公网开放时务必增加鉴权、访问控制和日志审计。
六、Docker 部署 Ollama:适合服务器和隔离环境
Docker 方式适合服务器、实验环境和希望隔离依赖的用户。Ollama 官方 Docker 镜像发布在 Docker Hub,可通过 volume 持久化模型文件。
CPU 版本示例
docker run -d –name ollama -p 11434:11434 -v ollama:/root/.ollama ollama/ollama
NVIDIA GPU 版本示例
服务器已安装 NVIDIA Container Toolkit 的情况下,可以让容器使用 GPU。不同服务器环境差异较大,部署前应先确认驱动、CUDA、容器运行时配置。
docker run -d –gpus=all –name ollama -p 11434:11434 -v ollama:/root/.ollama ollama/ollama
Docker 部署验证
docker exec -it ollama ollama run gemma3
七、下载并运行第一个模型
安装成功后,下一步就是下载模型。Ollama 模型库中包含通用对话、代码、推理、视觉、Embedding 等多种模型。建议新手从体积较小、社区使用广泛的模型开始。
| 使用场景 | 推荐入门模型 | 命令示例 |
| 中文写作/问答 | qwen3:4b 或 qwen3:8b | ollama run qwen3:4b |
| 轻量英文/多语言问答 | gemma3:4b | ollama run gemma3:4b |
| 低配置电脑测试 | gemma3:1b 或 deepseek-r1:1.5b | ollama run gemma3:1b |
| 代码解释/补全 | qwen2.5-coder:7b 或 deepseek-coder | ollama run qwen2.5-coder:7b |
| 推理/数学/逻辑 | deepseek-r1:8b 起步 | ollama run deepseek-r1:8b |
| 本地知识库/RAG | nomic-embed-text、mxbai-embed-large | ollama pull nomic-embed-text |
run 与 pull 的区别
- ollama run 模型名:如果本地没有模型,会先下载,再进入交互对话。
- ollama pull 模型名:只下载模型,不立即进入对话。适合批量准备模型。
- ollama list:查看本地已经下载的模型。
- ollama rm 模型名:删除不再使用的模型,释放磁盘空间。
ollama run qwen3:4b
ollama list
ollama rm qwen3:4b
八、Ollama 常用命令速查表
| 命令 | 作用 | 典型用途 |
| ollama –version | 查看版本 | 确认安装是否成功 |
| ollama run 模型名 | 运行模型并进入对话 | 第一次体验本地模型 |
| ollama pull 模型名 | 下载模型 | 提前下载或批量准备模型 |
| ollama list | 列出本地模型 | 查看模型占用和版本 |
| ollama ps | 查看正在运行的模型 | 排查显存、上下文和运行状态 |
| ollama stop 模型名 | 停止运行中的模型 | 释放内存和显存 |
| ollama rm 模型名 | 删除模型 | 释放磁盘空间 |
| ollama create | 基于 Modelfile 创建自定义模型 | 设定系统提示词、温度、上下文等 |
| ollama show 模型名 | 查看模型信息 | 确认参数、模板和许可证信息 |
九、自定义模型:用 Modelfile 固定提示词和参数
当你希望模型长期扮演某个角色,例如“公众号文章编辑”“法律条款摘要助手”“Python 代码审查助手”,可以使用 Modelfile。官方 Modelfile 参考中包含 FROM、PARAMETER、TEMPLATE、SYSTEM、ADAPTER、LICENSE、MESSAGE、REQUIRES 等指令。新手最常用的是 FROM、SYSTEM 和 PARAMETER。
示例:创建一个 AI 内容编辑助手
# 新建文件:Modelfile
FROM qwen3:4b
SYSTEM “””
你是一名中文 AI 内容站编辑,擅长把技术教程改写成适合网站发布的结构化文章。
回答时使用清晰标题、步骤、表格和 FAQ。
“””
PARAMETER temperature 0.7
PARAMETER num_ctx 8192
ollama create ai-editor -f Modelfile
ollama run ai-editor
这样做的好处是:不用每次手动输入长提示词,团队成员也可以复用同一套模型行为。
十、通过 API 调用本地模型
Ollama 安装并运行后,默认会在本机提供 API 服务,官方文档给出的本地 API 基础地址为 http://localhost:11434/api。也就是说,你可以用 curl、Python、JavaScript 或其他后端服务调用本地模型。
curl 调用示例
curl http://localhost:11434/api/generate -d ‘{
“model”: “gemma3”,
“prompt”: “用三句话解释什么是本地大模型”
}’
Python 调用示例
import requests
resp = requests.post(
“http://localhost:11434/api/generate”,
json={
“model”: “gemma3”,
“prompt”: “写一个小红书AI工具测评标题”,
“stream”: False
},
timeout=120
)
print(resp.json()[“response”])
OpenAI 兼容接口
Ollama 还提供部分 OpenAI API 兼容能力,方便把原本接入 OpenAI SDK 的应用迁移到本地模型。但“兼容”不等于完全等同,具体接口、参数和模型能力仍要以官方文档和实际测试为准。
十一、Embedding 与本地知识库:让模型读取你的资料
如果你希望模型基于本地文档、企业制度、产品手册或网站文章库回答问题,通常需要使用 RAG(检索增强生成)流程。Ollama 支持 Embedding 模型,可将文本转换为向量,再结合向量数据库完成相似度检索。官方文档说明,Embedding 可用于语义搜索、检索和 RAG 管道。
最小 RAG 思路
- 把文档切分成较小文本块。
- 使用 embedding 模型把文本块转换为向量。
- 把向量和原文存入向量数据库。
- 用户提问时,把问题也转换为向量。
- 检索最相关的文档片段,连同问题一起交给聊天模型生成答案。
ollama pull nomic-embed-text
对新手而言,可以先用 Open WebUI、AnythingLLM、Dify、Flowise、LangChain 等工具把流程跑通,再考虑自己写完整的 RAG 代码。
十二、接入 Open WebUI、VS Code 和自动化工作流
Ollama 本身可以在命令行中使用,但很多用户更希望像 ChatGPT 一样有网页聊天界面,或者把本地模型接入 VS Code、知识库、自动化脚本。常见接入方式如下。
| 接入方式 | 适合人群 | 说明 |
| Open WebUI | 希望网页聊天、多人使用、管理知识库的用户 | 常与 Docker 搭配使用,连接本地 11434 端口 |
| VS Code / Copilot Chat 模型选择 | 开发者、代码学习者 | Ollama 官方集成文档说明可在 VS Code 中添加 Ollama 模型 |
| Continue / Cline 等插件 | 想在 IDE 中用本地模型改代码的人 | 需要在插件配置里设置模型名和本地 API 地址 |
| Dify / Flowise / LangChain | 知识库、工作流、企业内部问答 | 通过 API 接入 Ollama,搭建 RAG 或 Agent 流程 |
| Python / Node.js 脚本 | 自动化、批量生成内容、私有工具开发 | 直接调用 /api/generate、/api/chat、/api/embed |
Open WebUI Docker 示例
docker run -d \
-p 3000:8080 \
–add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
–name open-webui \
ghcr.io/open-webui/open-webui:main
然后在浏览器访问 http://localhost:3000,根据界面提示连接 Ollama。不同系统下容器访问宿主机地址可能不同,连接失败时重点检查端口、网络模式和防火墙。
十三、性能优化:让本地模型更快、更稳
本地部署的体验很大程度取决于模型选择和硬件资源。不要把“能运行”误解为“适合长期使用”。如果模型响应慢、电脑发热、内存占满,通常可以从以下方面优化。
| 问题 | 优化方式 | 适用场景 |
| 首次加载慢 | 正常现象;模型第一次加载需要把权重读入内存/显存 | 刚运行模型时 |
| 生成速度慢 | 换小模型或更低量化版本;关闭占用内存的软件 | 低配电脑、轻薄本 |
| 上下文太短 | 适当提高 num_ctx,但要注意内存占用 | 长文总结、代码仓库分析 |
| 显存不足 | 换更小模型;降低上下文;让部分层回落 CPU | 独显显存较小 |
| 中文回答差 | 更换中文能力强的模型;增加系统提示词;优化问题描述 | 写作、客服、知识库 |
| 磁盘不足 | 删除不用模型;迁移模型目录;定期清理旧版本 | 大量测试模型后 |
官方上下文长度文档建议使用 ollama ps 检查模型的处理器分配、上下文等信息。实际使用中,num_ctx 不是越大越好,过大的上下文可能明显增加内存占用,甚至导致速度下降。
ollama ps
十四、常见报错排查

图 3:Ollama 常见报错排查路线图
1. 输入 ollama 提示不是内部或外部命令
- 先关闭并重新打开终端。很多 PATH 更新需要新终端生效。
- 执行 ollama –version 验证是否真正安装成功。
- Windows 用户检查开始菜单中是否有 Ollama,必要时重新安装。
2. 模型下载到一半失败
- 检查网络稳定性,必要时更换网络环境。
- 检查磁盘空间是否充足。模型文件通常比较大。
- 先尝试小模型,确认流程跑通后再下载大模型。
3. API 连接 localhost:11434 失败
- 确认 Ollama 程序或服务正在运行。
- 浏览器访问 http://localhost:11434,如果返回 Ollama 相关信息,说明服务在。
- 容器或局域网访问时,确认监听地址、防火墙和端口映射。
4. 模型回答很慢或卡住
- 换小模型,比如从 14B 降到 7B/8B 或 4B。
- 关闭占内存的软件,如浏览器多标签、剪辑软件、游戏等。
- 降低上下文长度,减少一次性输入的资料量。
5. 本地模型会不会泄露资料?
本地模型的核心优势是模型推理发生在本机或自有服务器上,私有文本不需要主动发给云端。但这不等于绝对安全:如果你接入了第三方 WebUI、远程插件、云 API 或联网工具,就要分别检查它们的数据流向、日志、插件权限和账号配置。
十五、推荐的新手部署路线
如果你是第一次部署 Ollama,不建议一上来就追求复杂。下面这条路线更适合大多数普通电脑和教程读者。
- 安装 Ollama 并确认 ollama –version 正常。
- 运行 ollama run gemma3:1b 或 qwen3:4b,确认能进入对话。
- 执行 ollama list,了解模型名称和本地列表。
- 用 curl 或 Python 调用 /api/generate,确认 API 可用。
- 安装 Open WebUI 或 IDE 插件,把 Ollama 接入实际工作流。
- 根据用途升级到 qwen3:8b、deepseek-r1:8b、qwen2.5-coder:7b 等模型。
- 最后再尝试 Modelfile、Embedding、RAG、Docker 和局域网服务。
| 提示:一句话总结 Ollama 的正确打开方式不是“下载最大模型”,而是“先跑通、再提质、再集成、再优化”。 |
十六、FAQ:Ollama 本地部署常见问题
Q1:Ollama 是不是完全免费?
Ollama 本身可以免费下载和使用,很多开源/开放权重模型也可本地运行。但不同模型有各自许可证,商业使用、再分发、托管服务等场景必须查看模型许可证。
Q2:没有显卡能不能用 Ollama?
可以尝试小模型,CPU 也能运行,但速度可能较慢。没有独显的轻薄本建议从 1B、4B 级别模型开始。
Q3:Windows、Mac、Linux 哪个更适合?
日常个人使用 Windows 和 macOS 都很方便;服务器、容器化、内网部署更常用 Linux;Apple Silicon Mac 运行中小模型体验通常不错。
Q4:Ollama 下载的模型保存在哪里?
默认保存在用户目录相关的 .ollama 目录中,不同系统路径不同。系统盘空间不足时,可以考虑迁移模型目录或用环境变量配置。
Q5:怎么让局域网其他电脑访问 Ollama?
需要让 Ollama 监听非 localhost 地址,并开放端口。因为这会扩大访问范围,建议只在可信内网使用,并增加反向代理、鉴权或防火墙规则。
Q6:Ollama 可以代替 ChatGPT 吗?
它可以在很多离线写作、摘要、代码解释、知识库问答中替代一部分云端模型,但模型质量、速度、联网能力和多模态能力取决于你选择的本地模型与硬件。
Q7:为什么同一个模型在别人电脑上很快,我这里很慢?
常见原因包括显卡不同、内存不足、上下文设置过大、量化版本不同、后台程序占用资源、系统散热降频等。
Q8:适合中文用户的模型怎么选?
优先试 qwen3 系列、DeepSeek 系列、部分中文优化模型;如果用于代码,可试 qwen2.5-coder、deepseek-coder 等。实际效果需要结合任务测试。
Q9:Ollama 能用于 WordPress 自动发文吗?
可以。思路是用脚本调用 Ollama API 生成标题、摘要、正文,再通过 WordPress REST API 发布。但要注意内容审核、事实核查和重复度控制。
Q10:Ollama 和 LM Studio 有什么区别?
Ollama 更偏命令行、API 和服务化集成;LM Studio 更偏桌面图形界面和模型管理。很多用户会同时使用:Ollama 负责服务,LM Studio 负责可视化试模型。
官方参考来源
Ollama 官方下载页:https://ollama.com/download
Ollama Windows 下载页:https://ollama.com/download/windows
Ollama macOS 下载页:https://ollama.com/download/mac
Ollama 官方 Windows 文档:https://docs.ollama.com/windows
Ollama CLI Reference:https://docs.ollama.com/cli
Ollama API Introduction:https://docs.ollama.com/api/introduction
Ollama API 文档:https://github.com/ollama/ollama/blob/main/docs/api.md
Ollama Modelfile Reference:https://docs.ollama.com/modelfile
Ollama Embeddings 文档:https://docs.ollama.com/capabilities/embeddings
Ollama OpenAI Compatibility:https://docs.ollama.com/api/openai-compatibility
Ollama Model Library:https://ollama.com/library
Ollama Docker Hub 镜像:https://hub.docker.com/r/ollama/ollama