Ollama 拉模型就一条命令:ollama pull 模型名。但这么多模型,拉哪个?低配机器怎么跑?量化到底选哪个?这篇把我实际测过的都列出来。
模型命名先搞懂
Ollama 的模型标签决定量化方式。不写标签默认拉 Q4_K_M(4-bit),大多数情况这个就够了。
其他常见的:
- Q4_0 — 4-bit 里最快的,精度损失也最大
- Q4_K_M — 默认,平衡点
- Q5_K_M — 精度高一点,体积大 20%
- Q8_0 — 接近 fp16,体积翻倍
- fp16 — 全精度,一般用不到
8G、16G 内存的机器,别碰 Q8 和 fp16,老老实实 Q4。
中文场景首推 Qwen2.5
通义千问的中文能力在所有开源模型里数一数二,这个没什么好争议的。
我推荐按内存选:
8G 内存:qwen2.5:3b 或 qwen2.5:1.5b。3B 的日常聊天基本够用,1.5B 更快但笨一点。
16G 内存:qwen2.5:7b 是甜点。中文理解、写作、翻译都不错。14B 也能加载但上下文不能开太大。
写代码:qwen2.5-coder:7b,专用版确实比通用版强。
DeepSeek 系列
推理能力猛。R1 版本适合逻辑推理、数学这类任务。
ollama pull deepseek-r1:7b
ollama pull deepseek-r1:8b7B 和 8B 版日常够用。V3 完整版需要大显存,普通机器就别碰了。
Llama 3
Meta 出品,英文生态最好。中文一般,但如果你跑英文任务或者要兼容 OpenAI 生态,它是首选。
ollama pull llama3.1:8b
ollama pull llama3.2:3b内存占用实测
Q4_K_M 量化下,模型加载后的大致峰值:
1.5B → 1.5GB 左右
3B → 2.5GB 左右
7B → 5GB 左右
14B → 9GB 左右
32B → 19GB 左右
注意这只是模型本身。实际聊天的时候上下文也占内存,每 1K tokens 额外多几百 MB。所以 8G 内存跑 7B,上下文开太长就会开始吃 swap。
8G 机器怎么救
选对模型大小。8G 最舒服的区间是 3B 以下。qwen2.5:3b 或者 qwen2.5:1.5b。
上下文长度控制住。默认的 num_ctx 是 2048 或 4096,8G 机器建议别超过 4096。改法:
ollama pull qwen2.5:7b
ollama show qwen2.5:7b --modelfile > Modelfile
# 编辑 Modelfile,加上 PARAMETER num_ctx 4096
ollama create qwen2.5:7b-short -f Modelfile加个 swap 兜底,至少不 OOM:
dd if=/dev/zero of=/swapfile bs=1M count=8192
chmod 600 /swapfile && mkswap /swapfile && swapon /swapfile
echo '/swapfile none swap sw 0 0' >> /etc/fstab日常管理
ollama list # 查看所有模型
ollama rm qwen2.5:32b # 删除不需要的
ollama show qwen2.5:7b --verbose # 查看模型详情模型文件在 ~/.ollama/models。磁盘满了可以挪到其他分区,停掉 Ollama 后 mv 加 ln -s 就行。