零 GPU 如何玩转大模型：CPU 量化运行实测 + 8G/16G 内存优化技巧

没有 GPU 能不能跑大模型？能。我用一台 16G 内存、i5-12400 的机器做了完整测试，数据都是实测的。

测试环境

CPU Intel i5-12400（6核12线程），16GB DDR4，无 GPU，NVMe SSD，Ubuntu 22.04。

qwen2.5:1.5b — 18~25 t/s，体积 1GB。简单对话、翻译没问题，速度挺快。

qwen2.5:3b — 10~15 t/s，体积 2GB。日常聊天可以接受了。

minicpm:2b — 14~20 t/s，体积 1.5GB。轻量对话够用。

3B 以下的模型在纯 CPU 上完全可用。

qwen2.5:7b（Q4_K_M）— 3~5 t/s，体积 4.7GB。能聊，但等一句完整回答要 10~30 秒。

qwen2.5:7b（Q8_0）— 2~3 t/s，体积 7.9GB。质量稍好但更慢。

deepseek-r1:7b — 3~5 t/s，逻辑推理用。

7B 能跑但要有耐心。适合不急着要结果的场景。

16G 机器加载 14B 就勉强了（模型占 9G，系统占 3~4G），跑起来大概 1~2 t/s，不建议。

另一台 8G 云服务器：

qwen2.5:1.5b → 12~18 t/s，很流畅。qwen2.5:3b → 7~10 t/s，可以接受。

qwen2.5:7b 必须开 swap 才不 OOM，1~2 t/s，很慢但能跑后台任务。

选对量化。Q4_K_M 性价比最高。Q8_0 体积大 60%+ 速度明显慢，除非质量要求特别高否则没必要。

上下文长度控制住。7B 在 num_ctx=4096 时大概 4 t/s，拉到 8192 掉到 2~3 t/s。日常对话 2048 完全够用，能从 4096 降到 2048 提速 20~30%。

关掉吃资源的服务。跑模型前把不用的关掉，每省出 1G 内存体验就好一点。

用 llama.cpp 直加载跳过 Ollama。只跑特定任务时少一层开销：

BASH

git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp
make -j$(nproc)
./llama-cli -m qwen2.5-7b-instruct-q4_k_m.gguf -p "你好" -n 512 -t 6

翻译、摘要、提取关键信息——对速度要求不高，CPU 够了。

离线环境、隐私敏感、学习实验——CPU 跑没毛病。

实时对话、代码生成、多用户同时用——还是需要 GPU。

如果想低成本加速：二手 RTX 3060 12G 大约 1500 元，7B~13B 都能跑。或者租云 GPU，AutoDL 上 RTX 4090 大概 2~4 元/小时，用完就关。