发现全球最佳 AI 工具

从零教你部署与精通,掌握实战变现工作流

Ollama本地模型下载教程封面图,展示从安装到拉模型的本地大模型运行流程

Ollama 本地模型下载教程:从安装到拉模型,新手照着做就能跑通

本文面向零基础用户,完整讲解 Ollama 的下载安装到本地模型下载流程,覆盖 Windows、macOS、Linux 三大系统,包含模型选择、pull/run/list/rm 命令、模型存储路径迁移、API 测试、Docker 部署和常见报错排查。

封面图:Ollama 本地模型下载教程

爆款标题

Ollama 本地模型下载教程:从安装到拉模型,新手照着做就能跑通

想在自己的电脑上跑大模型,Ollama 是目前最适合新手入门的工具之一。它把“下载模型、运行模型、管理模型、开放本地 API”这几件事封装成几条命令:装好 Ollama,执行 pull 下载模型,再 run 起来,就能在本地终端和应用里使用开源大模型。本文按 2026 年 4 月官方资料整理,适合 Windows、macOS、Linux 用户照着一步步操作。

适合读者:AI 新手、想离线运行模型的用户、需要本地知识库/RAG 的创作者、正在配置 Cursor / VS Code / OpenClaw / Dify 等工具的开发者。

一句话结论:普通用户优先使用官方安装包或官方安装命令;第一次拉模型建议选择 4B/7B/8B 级别的小模型,确认流程跑通后再尝试更大的模型。

图:从安装 Ollama 到拉取模型的完整流程

一、Ollama 是什么?为什么适合本地模型入门

Ollama 可以理解为“本地大模型运行器”。它负责把模型下载到你的电脑上,并在本机启动一个服务,默认通过 http://localhost:11434 提供 API。你可以直接在终端里聊天,也可以让编辑器、知识库、Agent 工具连接它。

相比手动配置 Python、CUDA、模型权重和推理框架,Ollama 的优势是门槛低:下载、运行、更新、删除模型都有统一命令。对新手来说,它不是性能上限最高的方案,但通常是最容易跑通的方案。

需要注意的是:Ollama 不是万能云模型。大模型仍然吃内存、显存和磁盘空间。电脑配置越低,就越应该先从小参数模型开始。

二、安装前准备:先确认系统、空间和用途

准备项建议
系统Windows:建议 Windows 10 22H2 或更新;macOS:Sonoma 14 或更新;Linux:主流发行版均可按官方脚本安装。
硬件没有独显也能用 CPU 跑小模型,但速度会慢;NVIDIA/AMD/Apple Silicon 会明显改善体验。
磁盘安装程序本身不大,但模型可能从几百 MB 到数十 GB 不等,建议预留 30GB+ 空间。
网络下载模型需要访问 Ollama 模型库;网络不稳定时可以重试 pull。
用途中文写作选 Qwen;代码选 Qwen Coder / CodeLlama;图片理解选 Llava;RAG 向量化选 embedding 模型。

三、官方下载与安装:Windows、macOS、Linux 三套步骤

下面按系统分别给出最稳妥的安装方式。新手优先使用官方入口,不要从不明网盘、二次打包站点下载安装包。

1. Windows 安装 Ollama

Windows 用户可以直接下载官方安装包,也可以在 PowerShell 里执行官方安装命令。安装后 Ollama 会作为原生 Windows 应用在后台运行,命令行可以在 cmd、PowerShell 或 Windows Terminal 里使用。

建议步骤:打开 PowerShell,粘贴官方命令;安装完成后重新打开终端,输入 ollama -v 检查版本;再执行 ollama run gemma3 或 ollama pull qwen3:4b 进行首次测试。

Windows PowerShell 示例

irm https://ollama.com/install.ps1 | iex
ollama -v
ollama run gemma3

2. macOS 安装 Ollama

macOS 用户通常有两种方式:下载 .dmg 后拖到 Applications 文件夹,或在终端执行安装脚本。官方文档提示 macOS 需要 Sonoma v14 或更新;Apple M 系列支持 CPU 和 GPU,x86 Mac 通常以 CPU 为主。

第一次启动 Ollama 时,如果系统提示是否创建命令行链接,建议允许,这样终端里才能直接使用 ollama 命令。

macOS 终端示例

curl -fsSL https://ollama.com/install.sh | sh
ollama -v
ollama run gemma3

3. Linux 安装 Ollama

Linux 用户推荐直接使用官方安装脚本。安装完成后,Ollama 通常会以 systemd 服务方式运行,便于开机启动和后台管理。

如果你是服务器用户,安装后重点检查服务状态、GPU 驱动、磁盘目录权限和 11434 端口安全,不要把 Ollama 直接暴露到公网。

Linux 终端示例

curl -fsSL https://ollama.com/install.sh | sh
ollama -v
sudo systemctl status ollama
ollama run gemma3

4. Docker 用户可选部署方式

如果你习惯用 Docker 管理服务,可以使用官方 Docker 镜像。CPU-only 适合轻量测试;NVIDIA GPU 需要先配置 NVIDIA Container Toolkit;AMD GPU 可使用 rocm 镜像标签。

Docker CPU-only 示例

docker run -d -v ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama
docker exec -it ollama ollama run llama3.2

四、从“安装好”到“拉模型”:新手最常用命令

图:Ollama 常用命令速查

运行模型:`ollama run 模型名` 会在本地没有模型时自动拉取,已经有模型时直接运行。官方 CLI 示例使用 `ollama run gemma3`。

只下载不运行:`ollama pull 模型名` 适合提前下载模型,例如先在网速好的时候拉取 `qwen3:4b`。

查看本地模型:`ollama list` 用来查看已经下载到本机的模型、大小和更新时间。

查看正在运行:`ollama ps` 用来查看当前加载在内存里的模型,以及模型是否跑在 CPU / GPU 上。

停止/删除:`ollama stop 模型名` 释放内存;`ollama rm 模型名` 删除本地模型文件,释放磁盘。

一次跑通示例

ollama pull qwen3:4b
ollama run qwen3:4b
ollama list
ollama ps
ollama stop qwen3:4b
ollama rm qwen3:4b

五、第一个模型怎么选?按用途选择,不要盲目追大

Ollama 模型库里有很多模型和标签,新手最常见的错误是:一上来就下载 70B、120B、235B 级别的大模型,结果磁盘不够、内存不够、速度很慢。正确做法是先用小模型验证流程,再按任务升级。

图:新手模型选择建议,具体模型标签以 Ollama 模型库为准

用途推荐先试说明
中文写作、问答、总结qwen3:4b / qwen3:8b中文体验友好,适合日常写作、文章整理、资料问答。
英文通用聊天llama3:8b英文生态成熟,适合通用问答和英文写作。
代码解释、代码生成qwen2.5-coder:7b / codellama:7b优先选择代码专项模型,速度和准确度比通用小模型更适合开发场景。
图片理解llava:7b适合图片问答、截图解释、视觉理解入门。
知识库 / RAGmxbai-embed-large / bge-m3用于文本向量化和检索增强,不是普通聊天模型。

六、模型下载到哪里了?如何改到 D 盘或数据盘

Ollama 模型文件通常比较大,知道默认存储路径很重要。下载前先确认磁盘空间;如果系统盘空间不足,可以把模型目录迁移到其他盘。

系统默认模型路径
macOS~/.ollama/models
Linux/usr/share/ollama/.ollama/models
WindowsC:\Users\%username%\.ollama\models

如果需要改模型目录,核心是设置环境变量 OLLAMA_MODELS。Windows 可在“环境变量”里新增用户变量;macOS 可用 launchctl 设置;Linux 服务模式建议通过 systemctl edit ollama.service 添加环境变量,并确认目录归 ollama 用户可读写。

迁移模型目录示例

# macOS 示例
launchctl setenv OLLAMA_MODELS “/Volumes/AIModels/Ollama”

# Linux systemd 示例
sudo systemctl edit ollama.service
# 在 [Service] 下添加:Environment=”OLLAMA_MODELS=/data/ollama/models”
sudo systemctl daemon-reload
sudo systemctl restart ollama

七、让其他软件调用 Ollama:本地 API 与常见集成

Ollama 安装后默认在本机提供 API 服务,地址通常是 http://localhost:11434。很多编辑器、Agent、知识库工具可以填写这个地址,把模型后端改成本地模型。

本地 API 测试示例

curl http://localhost:11434/api/generate -d ‘{
  “model”: “qwen3:4b”,
  “prompt”: “用三点说明本地大模型适合哪些场景”,
  “stream”: false
}’

如果要给局域网其他设备访问,可以设置 OLLAMA_HOST,但不建议把 11434 端口直接暴露到公网。确实需要远程访问时,应使用反向代理、认证、VPN 或隧道,并限制来源 IP。

八、常见报错与排查:照着这张清单处理

问题处理方法
ollama: command not foundCLI 未加入 PATH 或终端未重启。macOS 可确认是否创建 /usr/local/bin/ollama 链接;Windows 安装后重新打开 PowerShell。
pull 很慢或失败检查网络、代理和 HTTPS 证书;中断后重新执行 pull;不要同时下载多个大模型。
磁盘空间不足查看模型目录,删除不用模型,或设置 OLLAMA_MODELS 到更大的磁盘。
运行很慢降低模型参数规模;检查是否跑在 CPU;使用 ollama ps 查看处理器占用;升级显卡驱动。
GPU 没被使用检查 NVIDIA/AMD 驱动版本;Linux 检查 nvidia-smi/ROCm;Docker 需配置 GPU runtime。
端口被占用 / API 连不上确认 Ollama 正在运行;检查 localhost:11434;重启 Ollama 应用或 systemd 服务。
Windows 进度条乱码更换 Windows Terminal 字体,旧终端字体可能无法显示 Unicode 进度字符。

九、隐私与安全:本地运行不等于可以随便开放端口

Ollama 官方 FAQ 说明:本地运行时,Ollama 不会看到你的提示词和数据;如果使用云端模型,则请求需要被云端处理,但官方说明不存储、不记录该内容,也不会用于训练。对隐私敏感的内容,优先使用本地模型并关闭云功能。

安全方面,默认本机访问相对安全,但如果把 OLLAMA_HOST 改成 0.0.0.0,就可能让局域网或公网访问你的模型服务。服务器用户必须设置防火墙、认证、反向代理或 VPN,避免无鉴权暴露。

版权和合规方面,模型生成内容仍需要人工审核。企业部署前应检查模型许可证、输出内容责任、数据权限和内部安全策略。

十、推荐工作流:从 0 到可用本地 AI 助手

  • 第 1 步:先装 Ollama,执行 ollama -v 确认命令可用。
  • 第 2 步:运行 ollama run gemma3 或 ollama run qwen3:4b,确认模型能正常回复。
  • 第 3 步:根据用途下载第二个模型:写作选 Qwen,代码选 Coder,图片选 Llava,知识库选 Embedding。
  • 第 4 步:把模型目录迁移到大容量磁盘,避免系统盘被模型文件占满。
  • 第 5 步:连接到 Open WebUI、Dify、Cursor、VS Code 插件或 Agent 工具,形成稳定工作流。
  • 第 6 步:建立模型清理习惯,每隔一段时间用 ollama list 检查不用的模型并删除。

FAQ:Ollama 本地模型下载常见问题

Q1:Ollama 是免费的吗?

Ollama 本地运行和开源模型通常可以免费使用,但模型许可证、云端功能、商业使用和第三方应用费用需要分别确认。

Q2:没有显卡能运行吗?

可以跑小模型,但速度会慢。没有独显的新手建议先试 0.6B、1.7B、4B、7B 级别模型,不建议一上来拉 70B 大模型。

Q3:下载模型一定要用 pull 吗?

不一定。ollama run 模型名在本地没有模型时通常会自动下载;pull 适合提前下载或更新模型。

Q4:模型太大,C 盘满了怎么办?

设置 OLLAMA_MODELS 环境变量,把模型目录迁移到 D 盘或数据盘,然后重启 Ollama。

Q5:怎么知道模型是不是跑在 GPU 上?

使用 ollama ps 查看 Processor 列。如果显示 100% CPU,说明模型没有加载到 GPU;如果显示 GPU 或 CPU/GPU,则说明使用了 GPU 或混合加载。

Q6:Ollama 会把我的聊天内容上传吗?

本地运行时官方说明不会看到你的提示词和数据;使用云端模型时请求会由云端处理。隐私敏感场景建议禁用云功能并只用本地模型。

Q7:为什么别人推荐的模型我拉不到?

可能是模型名称、标签写错,或模型库已更新。到 Ollama 模型库复制完整模型名和 tag,再重新执行 pull。

Q8:安装完成后下一步该学什么?

建议继续学习 Open WebUI、本地知识库 RAG、Cursor/VS Code 连接 Ollama、以及模型参数和提示词设置。

参考资料

Facebook
LinkedIn
Reddit
X
Email
WhatsApp
Telegram
Pinterest
Mix

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注