发现全球最佳 AI 工具

从零教你部署与精通，掌握实战变现工作流

Ollama 本地模型下载教程：从安装到拉模型，新手照着做就能跑通

本文面向零基础用户，完整讲解 Ollama 的下载安装到本地模型下载流程，覆盖 Windows、macOS、Linux 三大系统，包含模型选择、pull/run/list/rm 命令、模型存储路径迁移、API 测试、Docker 部署和常见报错排查。

封面图：Ollama 本地模型下载教程

爆款标题

Ollama 本地模型下载教程：从安装到拉模型，新手照着做就能跑通

想在自己的电脑上跑大模型，Ollama 是目前最适合新手入门的工具之一。它把“下载模型、运行模型、管理模型、开放本地 API”这几件事封装成几条命令：装好 Ollama，执行 pull 下载模型，再 run 起来，就能在本地终端和应用里使用开源大模型。本文按 2026 年 4 月官方资料整理，适合 Windows、macOS、Linux 用户照着一步步操作。

适合读者：AI 新手、想离线运行模型的用户、需要本地知识库/RAG 的创作者、正在配置 Cursor / VS Code / OpenClaw / Dify 等工具的开发者。

一句话结论：普通用户优先使用官方安装包或官方安装命令；第一次拉模型建议选择 4B/7B/8B 级别的小模型，确认流程跑通后再尝试更大的模型。

图：从安装 Ollama 到拉取模型的完整流程

一、Ollama 是什么？为什么适合本地模型入门

Ollama 可以理解为“本地大模型运行器”。它负责把模型下载到你的电脑上，并在本机启动一个服务，默认通过 http://localhost:11434 提供 API。你可以直接在终端里聊天，也可以让编辑器、知识库、Agent 工具连接它。

相比手动配置 Python、CUDA、模型权重和推理框架，Ollama 的优势是门槛低：下载、运行、更新、删除模型都有统一命令。对新手来说，它不是性能上限最高的方案，但通常是最容易跑通的方案。

需要注意的是：Ollama 不是万能云模型。大模型仍然吃内存、显存和磁盘空间。电脑配置越低，就越应该先从小参数模型开始。

二、安装前准备：先确认系统、空间和用途

准备项	建议
系统	Windows：建议 Windows 10 22H2 或更新；macOS：Sonoma 14 或更新；Linux：主流发行版均可按官方脚本安装。
硬件	没有独显也能用 CPU 跑小模型，但速度会慢；NVIDIA/AMD/Apple Silicon 会明显改善体验。
磁盘	安装程序本身不大，但模型可能从几百 MB 到数十 GB 不等，建议预留 30GB+ 空间。
网络	下载模型需要访问 Ollama 模型库；网络不稳定时可以重试 pull。
用途	中文写作选 Qwen；代码选 Qwen Coder / CodeLlama；图片理解选 Llava；RAG 向量化选 embedding 模型。

三、官方下载与安装：Windows、macOS、Linux 三套步骤

下面按系统分别给出最稳妥的安装方式。新手优先使用官方入口，不要从不明网盘、二次打包站点下载安装包。

1. Windows 安装 Ollama

Windows 用户可以直接下载官方安装包，也可以在 PowerShell 里执行官方安装命令。安装后 Ollama 会作为原生 Windows 应用在后台运行，命令行可以在 cmd、PowerShell 或 Windows Terminal 里使用。

建议步骤：打开 PowerShell，粘贴官方命令；安装完成后重新打开终端，输入 ollama -v 检查版本；再执行 ollama run gemma3 或 ollama pull qwen3:4b 进行首次测试。

Windows PowerShell 示例

irm https://ollama.com/install.ps1 | iex
ollama -v
ollama run gemma3

2. macOS 安装 Ollama

macOS 用户通常有两种方式：下载 .dmg 后拖到 Applications 文件夹，或在终端执行安装脚本。官方文档提示 macOS 需要 Sonoma v14 或更新；Apple M 系列支持 CPU 和 GPU，x86 Mac 通常以 CPU 为主。

第一次启动 Ollama 时，如果系统提示是否创建命令行链接，建议允许，这样终端里才能直接使用 ollama 命令。

macOS 终端示例

curl -fsSL https://ollama.com/install.sh | sh
ollama -v
ollama run gemma3

3. Linux 安装 Ollama

Linux 用户推荐直接使用官方安装脚本。安装完成后，Ollama 通常会以 systemd 服务方式运行，便于开机启动和后台管理。

如果你是服务器用户，安装后重点检查服务状态、GPU 驱动、磁盘目录权限和 11434 端口安全，不要把 Ollama 直接暴露到公网。

Linux 终端示例

curl -fsSL https://ollama.com/install.sh | sh
ollama -v
sudo systemctl status ollama
ollama run gemma3

4. Docker 用户可选部署方式

如果你习惯用 Docker 管理服务，可以使用官方 Docker 镜像。CPU-only 适合轻量测试；NVIDIA GPU 需要先配置 NVIDIA Container Toolkit；AMD GPU 可使用 rocm 镜像标签。

Docker CPU-only 示例

docker run -d -v ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama
docker exec -it ollama ollama run llama3.2

四、从“安装好”到“拉模型”：新手最常用命令

图：Ollama 常用命令速查

运行模型：`ollama run 模型名` 会在本地没有模型时自动拉取，已经有模型时直接运行。官方 CLI 示例使用 `ollama run gemma3`。

只下载不运行：`ollama pull 模型名` 适合提前下载模型，例如先在网速好的时候拉取 `qwen3:4b`。

查看本地模型：`ollama list` 用来查看已经下载到本机的模型、大小和更新时间。

查看正在运行：`ollama ps` 用来查看当前加载在内存里的模型，以及模型是否跑在 CPU / GPU 上。

停止/删除：`ollama stop 模型名` 释放内存；`ollama rm 模型名` 删除本地模型文件，释放磁盘。

一次跑通示例

ollama pull qwen3:4b
ollama run qwen3:4b
ollama list
ollama ps
ollama stop qwen3:4b
ollama rm qwen3:4b

五、第一个模型怎么选？按用途选择，不要盲目追大

Ollama 模型库里有很多模型和标签，新手最常见的错误是：一上来就下载 70B、120B、235B 级别的大模型，结果磁盘不够、内存不够、速度很慢。正确做法是先用小模型验证流程，再按任务升级。

图：新手模型选择建议，具体模型标签以 Ollama 模型库为准

用途	推荐先试	说明
中文写作、问答、总结	qwen3:4b / qwen3:8b	中文体验友好，适合日常写作、文章整理、资料问答。
英文通用聊天	llama3:8b	英文生态成熟，适合通用问答和英文写作。
代码解释、代码生成	qwen2.5-coder:7b / codellama:7b	优先选择代码专项模型，速度和准确度比通用小模型更适合开发场景。
图片理解	llava:7b	适合图片问答、截图解释、视觉理解入门。
知识库 / RAG	mxbai-embed-large / bge-m3	用于文本向量化和检索增强，不是普通聊天模型。

六、模型下载到哪里了？如何改到 D 盘或数据盘

Ollama 模型文件通常比较大，知道默认存储路径很重要。下载前先确认磁盘空间；如果系统盘空间不足，可以把模型目录迁移到其他盘。

系统	默认模型路径
macOS	~/.ollama/models
Linux	/usr/share/ollama/.ollama/models
Windows	C:\Users\%username%\.ollama\models

如果需要改模型目录，核心是设置环境变量 OLLAMA_MODELS。Windows 可在“环境变量”里新增用户变量；macOS 可用 launchctl 设置；Linux 服务模式建议通过 systemctl edit ollama.service 添加环境变量，并确认目录归 ollama 用户可读写。

迁移模型目录示例

# macOS 示例
launchctl setenv OLLAMA_MODELS “/Volumes/AIModels/Ollama”

# Linux systemd 示例
sudo systemctl edit ollama.service
# 在 [Service] 下添加：Environment=”OLLAMA_MODELS=/data/ollama/models”
sudo systemctl daemon-reload
sudo systemctl restart ollama

七、让其他软件调用 Ollama：本地 API 与常见集成

Ollama 安装后默认在本机提供 API 服务，地址通常是 http://localhost:11434。很多编辑器、Agent、知识库工具可以填写这个地址，把模型后端改成本地模型。

本地 API 测试示例

curl http://localhost:11434/api/generate -d ‘{
“model”: “qwen3:4b”,
“prompt”: “用三点说明本地大模型适合哪些场景”,
“stream”: false
}’

如果要给局域网其他设备访问，可以设置 OLLAMA_HOST，但不建议把 11434 端口直接暴露到公网。确实需要远程访问时，应使用反向代理、认证、VPN 或隧道，并限制来源 IP。

八、常见报错与排查：照着这张清单处理

问题	处理方法
ollama: command not found	CLI 未加入 PATH 或终端未重启。macOS 可确认是否创建 /usr/local/bin/ollama 链接；Windows 安装后重新打开 PowerShell。
pull 很慢或失败	检查网络、代理和 HTTPS 证书；中断后重新执行 pull；不要同时下载多个大模型。
磁盘空间不足	查看模型目录，删除不用模型，或设置 OLLAMA_MODELS 到更大的磁盘。
运行很慢	降低模型参数规模；检查是否跑在 CPU；使用 ollama ps 查看处理器占用；升级显卡驱动。
GPU 没被使用	检查 NVIDIA/AMD 驱动版本；Linux 检查 nvidia-smi/ROCm；Docker 需配置 GPU runtime。
端口被占用 / API 连不上	确认 Ollama 正在运行；检查 localhost:11434；重启 Ollama 应用或 systemd 服务。
Windows 进度条乱码	更换 Windows Terminal 字体，旧终端字体可能无法显示 Unicode 进度字符。

九、隐私与安全：本地运行不等于可以随便开放端口

Ollama 官方 FAQ 说明：本地运行时，Ollama 不会看到你的提示词和数据；如果使用云端模型，则请求需要被云端处理，但官方说明不存储、不记录该内容，也不会用于训练。对隐私敏感的内容，优先使用本地模型并关闭云功能。

安全方面，默认本机访问相对安全，但如果把 OLLAMA_HOST 改成 0.0.0.0，就可能让局域网或公网访问你的模型服务。服务器用户必须设置防火墙、认证、反向代理或 VPN，避免无鉴权暴露。

版权和合规方面，模型生成内容仍需要人工审核。企业部署前应检查模型许可证、输出内容责任、数据权限和内部安全策略。

十、推荐工作流：从 0 到可用本地 AI 助手

第 1 步：先装 Ollama，执行 ollama -v 确认命令可用。
第 2 步：运行 ollama run gemma3 或 ollama run qwen3:4b，确认模型能正常回复。
第 3 步：根据用途下载第二个模型：写作选 Qwen，代码选 Coder，图片选 Llava，知识库选 Embedding。
第 4 步：把模型目录迁移到大容量磁盘，避免系统盘被模型文件占满。
第 5 步：连接到 Open WebUI、Dify、Cursor、VS Code 插件或 Agent 工具，形成稳定工作流。
第 6 步：建立模型清理习惯，每隔一段时间用 ollama list 检查不用的模型并删除。

FAQ：Ollama 本地模型下载常见问题

Q1：Ollama 是免费的吗？

Ollama 本地运行和开源模型通常可以免费使用，但模型许可证、云端功能、商业使用和第三方应用费用需要分别确认。

Q2：没有显卡能运行吗？

可以跑小模型，但速度会慢。没有独显的新手建议先试 0.6B、1.7B、4B、7B 级别模型，不建议一上来拉 70B 大模型。

Q3：下载模型一定要用 pull 吗？

不一定。ollama run 模型名在本地没有模型时通常会自动下载；pull 适合提前下载或更新模型。

Q4：模型太大，C 盘满了怎么办？

设置 OLLAMA_MODELS 环境变量，把模型目录迁移到 D 盘或数据盘，然后重启 Ollama。

Q5：怎么知道模型是不是跑在 GPU 上？

使用 ollama ps 查看 Processor 列。如果显示 100% CPU，说明模型没有加载到 GPU；如果显示 GPU 或 CPU/GPU，则说明使用了 GPU 或混合加载。

Q6：Ollama 会把我的聊天内容上传吗？

本地运行时官方说明不会看到你的提示词和数据；使用云端模型时请求会由云端处理。隐私敏感场景建议禁用云功能并只用本地模型。

Q7：为什么别人推荐的模型我拉不到？

可能是模型名称、标签写错，或模型库已更新。到 Ollama 模型库复制完整模型名和 tag，再重新执行 pull。

Q8：安装完成后下一步该学什么？

建议继续学习 Open WebUI、本地知识库 RAG、Cursor/VS Code 连接 Ollama、以及模型参数和提示词设置。

参考资料

Ollama Windows 下载页：https://ollama.com/download/windows
Ollama macOS 下载页：https://ollama.com/download/mac
Ollama Linux 官方文档：https://docs.ollama.com/linux
Ollama Windows 官方文档：https://docs.ollama.com/windows
Ollama macOS 官方文档：https://docs.ollama.com/macos
Ollama CLI Reference：https://docs.ollama.com/cli
Ollama Pull API：https://docs.ollama.com/api/pull
Ollama FAQ：https://docs.ollama.com/faq
Ollama Docker 文档：https://docs.ollama.com/docker
Ollama 模型库：https://ollama.com/library

AI Stack Nav

登录

账户

注册

退出

发现全球最佳 AI 工具

Ollama 本地模型下载教程：从安装到拉模型，新手照着做就能跑通

一、Ollama 是什么？为什么适合本地模型入门

二、安装前准备：先确认系统、空间和用途

三、官方下载与安装：Windows、macOS、Linux 三套步骤

1. Windows 安装 Ollama

2. macOS 安装 Ollama

3. Linux 安装 Ollama

4. Docker 用户可选部署方式

四、从“安装好”到“拉模型”：新手最常用命令

五、第一个模型怎么选？按用途选择，不要盲目追大

六、模型下载到哪里了？如何改到 D 盘或数据盘

七、让其他软件调用 Ollama：本地 API 与常见集成

八、常见报错与排查：照着这张清单处理

九、隐私与安全：本地运行不等于可以随便开放端口

十、推荐工作流：从 0 到可用本地 AI 助手

FAQ：Ollama 本地模型下载常见问题

Q1：Ollama 是免费的吗？

Q2：没有显卡能运行吗？

Q3：下载模型一定要用 pull 吗？

Q4：模型太大，C 盘满了怎么办？

Q5：怎么知道模型是不是跑在 GPU 上？

Q6：Ollama 会把我的聊天内容上传吗？

Q7：为什么别人推荐的模型我拉不到？

Q8：安装完成后下一步该学什么？

参考资料

最新文章

热门文章

标签云

AI Stack Nav

发表回复取消回复

发现全球最佳 AI 工具

Ollama 本地模型下载教程：从安装到拉模型，新手照着做就能跑通

一、Ollama 是什么？为什么适合本地模型入门

二、安装前准备：先确认系统、空间和用途

三、官方下载与安装：Windows、macOS、Linux 三套步骤

1. Windows 安装 Ollama

2. macOS 安装 Ollama

3. Linux 安装 Ollama

4. Docker 用户可选部署方式

四、从“安装好”到“拉模型”：新手最常用命令

五、第一个模型怎么选？按用途选择，不要盲目追大

六、模型下载到哪里了？如何改到 D 盘或数据盘

七、让其他软件调用 Ollama：本地 API 与常见集成

八、常见报错与排查：照着这张清单处理

九、隐私与安全：本地运行不等于可以随便开放端口

十、推荐工作流：从 0 到可用本地 AI 助手

FAQ：Ollama 本地模型下载常见问题

Q1：Ollama 是免费的吗？

Q2：没有显卡能运行吗？

Q3：下载模型一定要用 pull 吗？

Q4：模型太大，C 盘满了怎么办？

Q5：怎么知道模型是不是跑在 GPU 上？

Q6：Ollama 会把我的聊天内容上传吗？

Q7：为什么别人推荐的模型我拉不到？

Q8：安装完成后下一步该学什么？

参考资料

最新文章

热门文章

标签云

AI Stack Nav

发表回复 取消回复

发表回复取消回复