本地部署大模型太复杂？用 Ollama 一步到位（不再折腾）

适合开发者快速试验 LLaMA、Mistral、Gemma 等大模型

2025-06-27 2025-06-27 约 889 字预计阅读 4 分钟

1 前言

一直想在本地跑个大模型，比如 LLaMA、Mistral、Gemma 这类。但是以前试过 PyTorch + Transformers，那种装环境、调依赖、调 VRAM、还动不动爆显存的体验……说实话，普通人根本搞不动。

前段时间刷到一个叫 Ollama 的工具，说是可以“快速部署和运行大模型”，还支持 macOS、Windows、Linux，几分钟就能跑起来。我一开始也是半信半疑，结果一试真香。把我折腾了几天没部署好的 LLaMA2，用它不到 10 分钟就能跑起来，还带 API 接口。

这篇笔记就分享一下我自己的部署流程，不啰嗦、不玄学、能用、能跑。

2 一、Ollama 是什么？

一句话：Ollama = 一键本地部署大模型的命令行工具 + 轻量模型管理器。

你可以用一句命令下载并运行各种开源大模型（LLaMA2、Mistral、Gemma、Phi-3 等）
不用手动配环境、不用折腾显卡驱动、不用去 huggingface 下权重
自带 API 接口（你可以拿来对接网页、Bot、甚至 VSCode）

3 二、我用 Ollama 跑模型的流程

3.1 1. 安装 Ollama

3.1.1 macOS：

brew install ollama

3.1.2 Ubuntu / Debian：

curl -fsSL https://ollama.com/install.sh | sh

3.1.3 Windows（测试版）：

官网下载：https://ollama.com

✅ 安装完成后，你会得到一个 ollama 命令，可以在终端中运行。

3.2 2. 拉取模型

例如运行 LLaMA2，只需要：

ollama run llama2

自动下载 + 安装 + 运行，无需繁琐配置。也可以下载免安装版的解压就可以

ollama 安装下载绿色版设置环境OLLAMA_MODELS 为D:\Software\AI\ollama\model huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB 6 hours ago huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB 6 hours ago

pushd D:\Software\AI\ollama

set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe serve set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe run qwq:32b

运行时要设置环境变量。你机器ip。

3.3 3. 常用模型速览

模型名	大小	特点说明
llama2	7B	Meta 开源大模型，支持中文
mistral	7B	开源性能超强，跑得很快
gemma	2B	Google 出品，轻量级
phi3	3.8B	微软出的小而强的模型
codellama	7B	专门写代码用的 LLaMA
orca-mini	3B	微软精调小模型，适合嵌入设备

3.4 4. API 接口调用方式

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "中国的首都是哪里？"
}'

可集成网页、Bot、插件。

3.5 5. 多模型管理

ollama run mistral
ollama list
ollama rm llama2

4 三、部署小贴士

默认 CPU 运行（够用），可选装 CUDA 支持 GPU 加速
建议至少 8GB 内存（跑 7B 模型）
模型格式为 gguf，与 llama.cpp 通用
不建议装太多模型（容易爆硬盘）

目录

目录

本地部署大模型太复杂？用 Ollama 一步到位（不再折腾）

适合开发者快速试验 LLaMA、Mistral、Gemma 等大模型

1 前言

2 一、Ollama 是什么？

3 二、我用 Ollama 跑模型的流程

3.1 1. 安装 Ollama

3.1.1 macOS：

3.1.2 Ubuntu / Debian：

3.1.3 Windows（测试版）：

3.2 2. 拉取模型

3.3 3. 常用模型速览

3.4 4. API 接口调用方式

3.5 5. 多模型管理

4 三、部署小贴士

相关内容

目录

本地部署大模型太复杂？用 Ollama 一步到位（不再折腾）

适合开发者快速试验 LLaMA、Mistral、Gemma 等大模型

1 前言

2 一、Ollama 是什么？

3 二、我用 Ollama 跑模型的流程

3.1 1. 安装 Ollama

3.1.1 macOS：

3.1.2 Ubuntu / Debian：

3.1.3 Windows（测试版）：

3.2 2. 拉取模型

3.3 3. 常用模型速览

3.4 4. API 接口调用方式

3.5 5. 多模型管理

4 三、部署小贴士

相关内容

打造高效边缘服务架构：OpenWRT Nginx与Lua实战教程

文件同步实战：Rsync与Rclone对比分析与组合玩法

magic-animate：一键整合包下载与快速上手指南

Stable Diffusion 制作记录：从配置到出图的全过程复盘

GPT-SoVITS vs SadTalker：AI 声音与唇动方案全解析