目录

Ollama 实战常见问题集合:安装、模型、部署全面避坑指南

Ollama 是最近特别火的本地大模型推理工具,安装简单,支持拉各种模型一键运行。但真要用起来,你可能会踩一堆坑。我这边把几轮实战中遇到的常见问题和解决方案全整理一下,希望对你有用。

最常见的问题:下载完没法运行。

  • 系统不兼容:Ollama 目前主要支持 macOS 和 Linux,对 Windows 的支持不够友好(虽然 WSL 可用)。
  • 未配置 GPU 或驱动不对:Ollama 默认跑 GPU 模式,如果你没装好 CUDA,会直接挂。
  • mac 用户直接用 brew install ollama 最稳。
  • Linux 用 .deb 包安装后,注意要 sudo ollama run llama2 来试试是否成功。
  • Windows 推荐在 WSL2 + Ubuntu 中跑,别直接双击 EXE。

有些模型下载就是卡死在某个阶段,比如 30% 不动了。

  • Github 或官方镜像在国内不太稳。
  • 模型包太大(几个 GB 起步)。
  • 切换网络环境,尝试代理工具或加速器。
  • 直接下载模型文件 .mod,然后用 ollama pull /path/to/model 本地导入。

你跑的是 llama3:70b 却发现一直 OOM(内存溢出)?别急,这是个“物理问题”。

  • Llama2/3 的大模型需要 48GB 显存起步,普通机器别想了。
  • 推荐用 llama2:7bmistral:7b 等小模型测试。

可以参考我之前文章 ollamaollama-start ,快速启动的模型选型建议。

模型版本参数规模完整版显存需求量化版显存需求最低显卡配置推荐显卡配置
Llama3-405B4050亿810GB+200GB(8-bit)8×H100 80G(640GB)16×A100 80G(1280GB)
Llama3-70B700亿140-160GB24GB(4-bit)8×P40(192GB)8×A10(192GB)
Llama3-33B330亿66GB16GB(4-bit)1×A100 80G2×RTX 4090(48GB)
Llama3-8B80亿16-20GB6GB(4-bit)RTX 3060 12GRTX 3090/4090(24G)
Llama3-4B40亿8GB4GB(4-bit)GTX 1080 Ti(11G)RTX 3060 12G
模型系列参数规模完整版显存需求量化版显存需求最低显卡配置推荐显卡配置
DeepSeek-R1671B1.3-1.6TB436GB(4-bit)32×H100 80G(2.56TB)多节点分布式集群
70B280-350GB80GB(4-bit)8×A100 80G(640GB)8×A10(192GB)
32B128-160GB20GB(4-bit)4×A100 40G(160GB)2×RTX 4090(48GB)
8B32-40GB6GB(4-bit)RTX 3060 12GRTX 3090/4090(24G)
Qwen3235B(MoE)470GB110GB(4-bit)16×A100 80G(1.28TB)专业计算集群
32B64GB16GB(4-bit)1×A100 80G2×RTX 4090(48GB)
8B16GB5GB(4-bit)GTX 1080 Ti(11G)RTX 3060 12G
4B8GB3GB(4-bit)集成显卡GTX 1660(6G)

你可能配了个本地 WebUI,比如 oobabooga,然后让它接 Ollama,结果一直连不上?

  • 默认端口 11434 是否被占用?
  • 是否设置了 OLLAMA_HOST 环境变量?
export OLLAMA_HOST=localhost:11434

或者在 webui 配置中加上 API 地址指向 Ollama:http://localhost:11434


Ollama 默认的设置可能对你的 GPU/CPU 不够友好。

  • 降低模型量级:比如从 13b 换到 7b,会快非常多。
  • 设置多线程:可尝试添加 --num-thread 8 参数。
  • 关闭 WebUI,直接 CLI 调用测试响应速度。

目前 Ollama 支持自定义模型配置,但暂不支持直接微调。可以:


  • 模型路径默认在 ~/.ollama/models/,硬盘空间小的注意别塞爆。

  • 多用户切换环境时,容易碰到权限问题:建议每个用户独立配置。

  • 想常驻运行可以结合 systemd 或 launchctl 做守护进程。

  • 多人并发访问崩溃?Ollama 并不适合高并发场景! 有些人以为Ollama 是个轻量级服务,就想拿它当生产环境的推理引擎。千万别这么干!

    Ollama 的设计初衷是本地开发调试用的,并发能力非常有限 。如果你的项目需要多人同时访问,建议:

    • 用 FastAPI + Gunicorn + Uvicorn 搭一层代理,做负载均衡
    • 或者直接上 HuggingFace Inference API、vLLM 这类专门为高并发设计的框架

    曾经有个朋友非要用Ollama搭个小网站,结果一上线就被打崩了,日志里全是 connection timeout 和 out of memory。别不信,这种事真的会发生。

  • 日志信息太少?开启DEBUG模式!

    默认的日志输出很鸡肋,很多问题根本看不出原因。

    开启DEBUG:

    export OLLAMA_DEBUG=1

    ollama run llama3

    这时候你会看到一堆详细的日志,包括模型加载过程、内存分配、推理状态等等

生产 想着简单封装个API给内部用,结果发现ollama serve默认没有auth!吓得我连夜用Nginx加basic auth。更绝的是这货居然不支持HTTPS,最后不得不套层Caddy反向代理。现在我们的调用链路长得像俄罗斯套娃:前端->API网关->Caddy->Nginx->Ollama。

不要直接暴露端口11434到0.0.0.0 外网。

相关内容