Ollama 常用模型拉取与量化实战：DeepSeek、Qwen、Llama3 在 8G/16G 机器上怎么跑

Ollama 拉模型就一条命令：ollama pull 模型名。但这么多模型，拉哪个？低配机器怎么跑？量化到底选哪个？这篇把我实际测过的都列出来。

模型命名先搞懂

Ollama 的模型标签决定量化方式。不写标签默认拉 Q4_K_M（4-bit），大多数情况这个就够了。

其他常见的：

Q4_0 — 4-bit 里最快的，精度损失也最大
Q4_K_M — 默认，平衡点
Q5_K_M — 精度高一点，体积大 20%
Q8_0 — 接近 fp16，体积翻倍
fp16 — 全精度，一般用不到

8G、16G 内存的机器，别碰 Q8 和 fp16，老老实实 Q4。

中文场景首推 Qwen2.5

通义千问的中文能力在所有开源模型里数一数二，这个没什么好争议的。

我推荐按内存选：

8G 内存：qwen2.5:3b 或 qwen2.5:1.5b。3B 的日常聊天基本够用，1.5B 更快但笨一点。

16G 内存：qwen2.5:7b 是甜点。中文理解、写作、翻译都不错。14B 也能加载但上下文不能开太大。

写代码：qwen2.5-coder:7b，专用版确实比通用版强。

DeepSeek 系列

推理能力猛。R1 版本适合逻辑推理、数学这类任务。

BASH

ollama pull deepseek-r1:7b
ollama pull deepseek-r1:8b

7B 和 8B 版日常够用。V3 完整版需要大显存，普通机器就别碰了。

Llama 3

Meta 出品，英文生态最好。中文一般，但如果你跑英文任务或者要兼容 OpenAI 生态，它是首选。

BASH

ollama pull llama3.1:8b
ollama pull llama3.2:3b

内存占用实测

Q4_K_M 量化下，模型加载后的大致峰值：

1.5B → 1.5GB 左右
3B → 2.5GB 左右
7B → 5GB 左右
14B → 9GB 左右
32B → 19GB 左右

注意这只是模型本身。实际聊天的时候上下文也占内存，每 1K tokens 额外多几百 MB。所以 8G 内存跑 7B，上下文开太长就会开始吃 swap。

8G 机器怎么救

选对模型大小。8G 最舒服的区间是 3B 以下。qwen2.5:3b 或者 qwen2.5:1.5b。

上下文长度控制住。默认的 num_ctx 是 2048 或 4096，8G 机器建议别超过 4096。改法：

BASH

ollama pull qwen2.5:7b
ollama show qwen2.5:7b --modelfile > Modelfile
# 编辑 Modelfile，加上 PARAMETER num_ctx 4096
ollama create qwen2.5:7b-short -f Modelfile

加个 swap 兜底，至少不 OOM：

BASH

dd if=/dev/zero of=/swapfile bs=1M count=8192
chmod 600 /swapfile && mkswap /swapfile && swapon /swapfile
echo '/swapfile none swap sw 0 0' >> /etc/fstab

日常管理

BASH

ollama list          # 查看所有模型
ollama rm qwen2.5:32b # 删除不需要的
ollama show qwen2.5:7b --verbose # 查看模型详情

模型文件在 ~/.ollama/models。磁盘满了可以挪到其他分区，停掉 Ollama 后 mv 加 ln -s 就行。

模型命名先搞懂

中文场景首推 Qwen2.5

DeepSeek 系列

Llama 3

内存占用实测

8G 机器怎么救

日常管理

📌 相关文章

发表评论 取消回复

发表评论取消回复