发现全球最佳 AI 工具

从零教你部署与精通,掌握实战变现工作流

Ollama 本地部署大模型完整教程封面图,展示本地 AI 工作台、终端安装流程与本地模型运行场景

Ollama 本地部署大模型完整教程,小白也能学会

这是一篇面向零基础用户的 Ollama 本地部署教程,完整覆盖 Windows、macOS、Linux 安装方式、模型下载与运行、API 调用、Modelfile 自定义、模型目录迁移、代理设置和常见报错排查。文章强调“先跑通,再扩展”的实践路线,帮助新手快速搭建自己的本地大模型工作台。

零基础入门 · 新手友好 · 可直接照做

作者整理说明:本文基于 Ollama 官方文档与 2026 年 3 月公开信息撰写,重点面向首次本地部署用户。

Ollama 本地部署大模型完整教程,小白也能学会

从下载安装到拉模型、跑 API、接入第三方工具,再到迁移模型目录与常见报错排查,按顺序照着做就能跑起来。

先看结论:第一次上手,建议这样做 • 新手优先选 Windows 图形安装或 macOS / Linux 官方脚本安装,别一开始就折腾 Docker。 • 第一个模型建议从 3B / 4B 级别开始,例如 llama3.2:3b 或 qwen3:4b,先确保环境、磁盘与 API 都跑通。 • 当你需要接入编辑器、工作流工具或自建应用时,本地地址通常就是 http://localhost:11434。 • 如果遇到磁盘爆满、下载慢、模型卡死等问题,优先检查模型大小、代理设置和 OLLAMA_MODELS。

一、Ollama 到底是什么,为什么适合新手

简单说,Ollama 是一个把本地大模型“装起来、拉下来、跑起来、接出去”的工具层。它能在 macOS、Windows 和 Linux 上运行,提供命令行与本地 API;你既可以直接在终端聊天,也可以让自己的应用通过 localhost 调它。

对新手来说,它最大的价值不是“功能最多”,而是上手路径最短:安装后先 pull 一个模型,再 run 起来测试,最后再决定要不要接 IDE、知识库、自动化工作流。

• 支持 macOS、Windows、Linux 三个平台。

• 本地 API 默认走 http://localhost:11434,局域网/本机调试很直观。

• 既能运行公开模型,也支持通过 Modelfile 基于已有模型、Safetensors 权重或 GGUF 文件创建自定义模型。

• 新版文档已经提供 OpenAI 与 Anthropic 兼容接口,方便把现有应用切到本地后端。

图 1:新手最稳妥的上手顺序,是先装环境、再拉小模型、再调 API。

二、安装前先搞清楚:你需要准备什么

先说最现实的一点:本地部署从来都不是“装完就一定飞快”。是否好用,主要取决于三个变量:模型大小、你的内存 / 显存、以及你是不是只做轻量问答。

如果你只是想体验本地聊天、做总结、写提纲、跑简单工作流,那么从小模型开始完全够用;如果一上来就装 30B、70B 甚至更大的模型,失败概率和等待时间都会明显上升。

场景建议
操作系统macOS、Windows、Linux 都支持。Windows 10+ 和 macOS 14+ 是官方明确写出的最低门槛。
磁盘空间Windows 文档写明安装本体至少需要 4GB,模型本身还会继续占用几十 GB 甚至更多。
GPU 驱动Linux 走 NVIDIA 时需要先把 CUDA 驱动装好,并用 nvidia-smi 检查;AMD 路线看 ROCm。
网络模型需要联网拉取;如果公司网络或地区网络受限,可能要配置 HTTPS_PROXY。
模型选择第一次建议选 3B / 4B / 8B 这类更容易跑起来的版本;先追求“稳定能用”,再追求“更强”。

经验上,你可以这样理解:CPU 也能跑,但速度一般;内存越紧张,越要优先选小模型;上下文开得越大,资源占用也会继续上涨。本文里我会把“先跑通”放在第一位。

图 2:模型不是越大越好。新手先把中小模型跑稳,体验通常更好。

三、官方安装方式:Windows、macOS、Linux 分别怎么做

1. Windows:最适合纯新手

Windows 路线通常最省心。你可以直接下载官方安装包,也可以用 PowerShell 一键安装。官方文档还特别说明:默认安装不需要 Administrator,程序通常装在你的用户目录里。

PowerShell 一键安装
irm https://ollama.com/install.ps1 | iex

1. 双击安装包或执行上面的 PowerShell 命令完成安装。

2. 安装完成后,打开开始菜单或终端,输入 ollama。

3. 第一次建议直接执行 ollama run llama3.2:3b,让它自动拉模型并进入对话。

4. 若磁盘空间吃紧,稍后把 OLLAMA_MODELS 指向其他盘符。

2. macOS:命令行最简单

macOS 官方下载页写明需要 macOS 14 Sonoma 或更高版本。你既可以下载图形安装包,也可以直接在终端执行安装脚本。

macOS / Linux 官方脚本
curl -fsSL https://ollama.com/install.sh | sh

3. Linux:推荐把服务方式顺手配好

Linux 安装同样可以走官方脚本。官方 Linux 文档还给出了 systemd 服务方式,因此如果你打算把它当作长期驻留的本地模型服务,Linux 反而更适合。

• NVIDIA 用户先把 CUDA 驱动装好,再执行 nvidia-smi 检查是否识别成功。

• AMD 用户走 ROCm,官方文档当前写的是 ROCm v7。

• 需要长期运行时,可以按文档把 ollama 配成 systemd 服务。

四、安装后第一件事:先跑通第一个模型

很多新手装完之后马上去接插件、接编辑器,结果到底是模型没下好、服务没起来,还是接口没填对,自己也说不清。正确顺序应该是:先在终端里把“下载 → 运行 → 回复”这三步做通。

图 3:这些命令记住了,后面 80% 的使用场景都能覆盖。

第一次建议你至少做一遍的命令
# 直接运行一个轻量模型(第一次会自动下载)
ollama run llama3.2:3b

# 查看本地已经安装的模型
ollama ls

# 查看正在运行的模型
ollama ps

# 停止一个模型
ollama stop llama3.2:3b

如果你想先体验中文办公场景,也可以换成 qwen3:4b 这类体量更友好的模型;如果你想试推理类回答,可以稍后再拉 deepseek-r1:8b。关键不是模型名单,而是先建立一个“我已经能在本机稳定对话”的基线。

五、模型怎么选:别被参数规模带偏

对于大多数第一次装 Ollama 的用户,模型选择可以按任务分,而不是按“谁最火”来分。

任务类型推荐起步为什么这么选提醒
日常问答 / 总结llama3.2:3b轻量,适合先验证环境先求稳定,不要急着追大参数
中文办公 / 写作qwen3:4b中文体验通常更友好长文任务依旧建议分步提问
推理分析deepseek-r1:8b适合链式推理类场景资源占用会更高
多模态 / 看图qwen3.5 或 llama3.2-vision可处理文本 + 图像输入先确认工具链是否支持图像传入
编程 / Agentqwen3-coder更适合代码与工具调用别一上来装极大版本

一句话原则:新手第一次装的时候,不要想着“一步到位”,而要想着“低成本验证 + 逐步加码”。模型能稳定回答、速度还能接受,你就已经成功了。

六、本地 API 怎么调:用最简单的方式先打通

Ollama 本地 API 默认地址是 http://localhost:11434。官方文档说明,本地访问这个地址不需要额外认证;所以在你自己的电脑上调试,门槛是很低的。

最基础的 /api/chat 示例
curl http://localhost:11434/api/chat -d ‘{
  “model”: “gemma3”,
  “messages”: [
    { “role”: “user”, “content”: “你好,请用三句话解释一下 Ollama 是什么。” }
  ]
}’

如果你更喜欢一次性给 prompt,也可以用 /api/generate;如果你要做向量检索或知识库,可以看 /api/embed;如果你原来已经有基于 OpenAI 或 Anthropic 的应用,最新版文档还给了兼容层,迁移成本会更低。

当你已有 OpenAI 风格调用代码时,可以考虑兼容接口
# OpenAI 兼容接口(示意)
curl http://localhost:11434/v1/responses -d ‘{
  “model”: “llama3.2:3b”,
  “input”: “请把这段话总结成三点。”
}’

七、进阶一点:Modelfile、自定义模型和本地导入

当你不满足于“直接拉官方库里的现成模型”时,Ollama 的 Modelfile 就会派上用场。它可以理解成一个“模型蓝图文件”:你可以在里面指定基础模型、系统提示词、参数,甚至从本地 GGUF 文件或 Safetensors 权重构建新模型。

一个适合办公助手的 Modelfile 示例
FROM llama3.2
SYSTEM “””你是一个中文办公助手,回答要求:
1. 先给结论
2. 再给执行步骤
3. 尽量少说空话
“””
PARAMETER temperature 0.3
PARAMETER num_ctx 4096
创建并运行自定义模型
# 根据 Modelfile 创建新模型
ollama create office-helper -f Modelfile

# 运行它
ollama run office-helper

如果你手里已经有 GGUF 文件,文档也给出了 FROM ./xxx.gguf 的写法;如果你拿的是一套 Safetensors 权重,则可以直接把权重目录作为 FROM 目标。对于想把 Hugging Face 上的模型资产接入本地工作流的人来说,这一步很关键。

八、第三方工具怎么接:思路比死记命令更重要

你可以把 Ollama 看成一个“本地模型后端”。前端可以是终端,可以是编辑器插件,也可以是你自己写的应用。关键不是记住某个插件的设置页面,而是理解:大多数接入都绕不开“模型名 + 本地地址 + 接口格式”。

• 如果工具支持 OpenAI 风格接口,优先尝试填本地 base URL 到 http://localhost:11434。

• 如果工具支持 Anthropic Messages API,也可以按官方文档设置 ANTHROPIC_BASE_URL=http://localhost:11434。

• 如果是 VS Code、Claude Code、Codex 等工具,最新版 CLI 还提供了 ollama launch 的交互式配置入口。

也就是说,你不一定要先学会写代码。很多时候,先让工具连上 Ollama,再慢慢调整模型与参数,已经足够你完成一套本地工作流。

九、模型目录迁移、代理、服务常驻:真正开始长期使用后的三个高频问题

当你第一次把 Ollama 真的用起来之后,最常遇到的不是“不会安装”,而是下面三类问题:模型把系统盘塞满了、网络环境导致下载卡住、以及想让服务长期在线却老是忘记启动。

问题怎么做为什么
系统盘空间不够设置 OLLAMA_MODELS 到其他目录模型通常比程序本体更占空间
下载慢或下载失败优先检查 HTTPS_PROXY 与网络环境模型拉取依赖外网连接
希望开机即用Linux 可配置 systemd;其他系统可做自启动避免每次手动开服务

官方 FAQ 里还给出了默认模型目录位置:macOS 在 ~/.ollama/models,Linux 在 /usr/share/ollama/.ollama/models,Windows 在 C:\Users\%username%\.ollama\models。知道这个位置之后,你就知道空间到底被谁吃掉了。

十、常见报错怎么排:把排查顺序固定下来

图 4:遇到问题时,别乱试配置,按“网络 → 模型大小 → 服务状态 → 路径”顺序排查。

1. 先确认 Ollama 是否已经在运行:终端执行 ollama 或 ollama serve,别先怀疑插件。

2. 再确认模型有没有真的下好:执行 ollama ls 看本地清单。

3. 如果回答特别慢或直接卡死,优先换更小模型,而不是立刻换系统。

4. API 连不上时,先确认地址是不是 localhost:11434,而不是瞎填别的端口。

5. 磁盘空间不够时,优先迁移 OLLAMA_MODELS,不建议反复删装程序。

6. Linux 想用 GPU 时,先看驱动和 nvidia-smi / ROCm 状态,再看 Ollama 本身。

十一、给新手的一套推荐落地流程

如果你只想今天就把 Ollama 用起来,按下面这个最省事 • 第 1 步:用官方安装方式把 Ollama 装好。 • 第 2 步:执行 ollama run llama3.2:3b,等模型下载完成。 • 第 3 步:问它一个简单问题,确认能稳定回答。 • 第 4 步:执行 ollama ls 和 ollama ps,学会看本地模型与运行状态。 • 第 5 步:用 curl 试一次 /api/chat,确认本地 API 打通。 • 第 6 步:再去接 IDE、知识库、自动化工具,而不是反过来。

这套顺序的好处在于,你每做一步都能验证上一层有没有成功。对新手来说,能够“分层确认”比一次把所有插件全装上更重要。

FAQ:

问题建议回答
Ollama 支持哪些系统?支持 macOS、Windows 和 Linux。新手通常优先选 Windows 或 macOS 图形化安装,Linux 更适合长期作为本地模型服务运行。
Ollama 本地部署需要联网吗?安装后本地运行可以离线,但第一次下载模型通常需要联网;如果网络受限,可能需要设置 HTTPS_PROXY。
Ollama 可以在没有 GPU 的电脑上运行吗?可以,CPU 也能运行,只是速度通常会更慢。新手建议先从 3B / 4B 级别的小模型开始。
Ollama 的模型存在哪里?默认会放在本地模型目录中;如果系统盘空间不够,可以通过 OLLAMA_MODELS 迁移到其他目录。
Ollama 可以接现有应用吗?可以。它提供本地 API,也提供 OpenAI / Anthropic 兼容层,适合接编辑器插件、自动化工具和自建应用。

十二、结语:Ollama 值不值得学

如果你想要的是“把大模型装在自己电脑上,能离线、可控、能接应用、还能逐步扩展”,那 Ollama 非常值得学。它不是唯一方案,但确实是当前最适合新手迈出第一步的方案之一。

你不需要第一天就懂所有参数、所有模型、所有插件。先装好、先跑通、先问出第一轮回答,然后再慢慢接工具、调提示词、做工作流,这才是最稳的学习路径。

附录:官方资料与建议继续阅读

• Quickstart:docs.ollama.com/quickstart

• CLI Reference:docs.ollama.com/cli

• Windows:docs.ollama.com/windows

• Linux:docs.ollama.com/linux

• FAQ:docs.ollama.com/faq

• API / chat:docs.ollama.com/api/chat

• OpenAI compatibility:docs.ollama.com/api/openai-compatibility

• Modelfile:docs.ollama.com/modelfile

• 模型库:ollama.com/library

Facebook
LinkedIn
Reddit
X
Email
WhatsApp
Telegram
Pinterest
Mix

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注