本地部署大模型太复杂?用 Ollama 一步到位(不再折腾)
适合开发者快速试验 LLaMA、Mistral、Gemma 等大模型
1 前言
一直想在本地跑个大模型,比如 LLaMA、Mistral、Gemma 这类。但是以前试过 PyTorch + Transformers,那种装环境、调依赖、调 VRAM、还动不动爆显存的体验……说实话,普通人根本搞不动。
前段时间刷到一个叫 Ollama 的工具,说是可以“快速部署和运行大模型”,还支持 macOS、Windows、Linux,几分钟就能跑起来。我一开始也是半信半疑,结果一试真香。把我折腾了几天没部署好的 LLaMA2,用它不到 10 分钟就能跑起来,还带 API 接口。
这篇笔记就分享一下我自己的部署流程,不啰嗦、不玄学、能用、能跑。
2 一、Ollama 是什么?
一句话:Ollama = 一键本地部署大模型的命令行工具 + 轻量模型管理器。
- 你可以用一句命令下载并运行各种开源大模型(LLaMA2、Mistral、Gemma、Phi-3 等)
- 不用手动配环境、不用折腾显卡驱动、不用去 huggingface 下权重
- 自带 API 接口(你可以拿来对接网页、Bot、甚至 VSCode)
3 二、我用 Ollama 跑模型的流程
3.1 1. 安装 Ollama
3.1.1 macOS:
brew install ollama
3.1.2 Ubuntu / Debian:
curl -fsSL https://ollama.com/install.sh | sh
3.1.3 Windows(测试版):
官网下载:https://ollama.com
✅ 安装完成后,你会得到一个
ollama
命令,可以在终端中运行。
3.2 2. 拉取模型
例如运行 LLaMA2,只需要:
ollama run llama2
自动下载 + 安装 + 运行,无需繁琐配置。 也可以下载免安装版的 解压就可以
ollama 安装 下载绿色版 设置 环境OLLAMA_MODELS 为D:\Software\AI\ollama\model huihui_ai/deepseek-r1-abliterated:14b 6b2209ffd758 9.0 GB 6 hours ago huihui_ai/deepseek-r1-abliterated:32b fb53b3296912 19 GB 6 hours ago
pushd D:\Software\AI\ollama
set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe serve set OLLAMA_HOST=192.168.11.100:11434 && ollama.exe run qwq:32b
运行时要设置环境变量。你机器ip。
3.3 3. 常用模型速览
模型名 | 大小 | 特点说明 |
---|---|---|
llama2 | 7B | Meta 开源大模型,支持中文 |
mistral | 7B | 开源性能超强,跑得很快 |
gemma | 2B | Google 出品,轻量级 |
phi3 | 3.8B | 微软出的小而强的模型 |
codellama | 7B | 专门写代码用的 LLaMA |
orca-mini | 3B | 微软精调小模型,适合嵌入设备 |
3.4 4. API 接口调用方式
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "中国的首都是哪里?"
}'
可集成网页、Bot、插件。
3.5 5. 多模型管理
ollama run mistral
ollama list
ollama rm llama2
4 三、部署小贴士
- 默认 CPU 运行(够用),可选装 CUDA 支持 GPU 加速
- 建议至少 8GB 内存(跑 7B 模型)
- 模型格式为 gguf,与 llama.cpp 通用
- 不建议装太多模型(容易爆硬盘)