没有 GPU 能不能跑大模型?能。我用一台 16G 内存、i5-12400 的机器做了完整测试,数据都是实测的。
测试环境
CPU Intel i5-12400(6核12线程),16GB DDR4,无 GPU,NVMe SSD,Ubuntu 22.04。
各模型实测速度
1B~3B
qwen2.5:1.5b — 18~25 t/s,体积 1GB。简单对话、翻译没问题,速度挺快。
qwen2.5:3b — 10~15 t/s,体积 2GB。日常聊天可以接受了。
minicpm:2b — 14~20 t/s,体积 1.5GB。轻量对话够用。
3B 以下的模型在纯 CPU 上完全可用。
7B
qwen2.5:7b(Q4_K_M)— 3~5 t/s,体积 4.7GB。能聊,但等一句完整回答要 10~30 秒。
qwen2.5:7b(Q8_0)— 2~3 t/s,体积 7.9GB。质量稍好但更慢。
deepseek-r1:7b — 3~5 t/s,逻辑推理用。
7B 能跑但要有耐心。适合不急着要结果的场景。
14B 以上
16G 机器加载 14B 就勉强了(模型占 9G,系统占 3~4G),跑起来大概 1~2 t/s,不建议。
8G 机器也测了
另一台 8G 云服务器:
qwen2.5:1.5b → 12~18 t/s,很流畅。qwen2.5:3b → 7~10 t/s,可以接受。
qwen2.5:7b 必须开 swap 才不 OOM,1~2 t/s,很慢但能跑后台任务。
CPU 跑的优化
选对量化。Q4_K_M 性价比最高。Q8_0 体积大 60%+ 速度明显慢,除非质量要求特别高否则没必要。
上下文长度控制住。7B 在 num_ctx=4096 时大概 4 t/s,拉到 8192 掉到 2~3 t/s。日常对话 2048 完全够用,能从 4096 降到 2048 提速 20~30%。
关掉吃资源的服务。跑模型前把不用的关掉,每省出 1G 内存体验就好一点。
用 llama.cpp 直加载跳过 Ollama。只跑特定任务时少一层开销:
git clone https://github.com/ggerganov/llama.cpp && cd llama.cpp
make -j$(nproc)
./llama-cli -m qwen2.5-7b-instruct-q4_k_m.gguf -p "你好" -n 512 -t 6到底值不值得用 CPU 跑
翻译、摘要、提取关键信息——对速度要求不高,CPU 够了。
离线环境、隐私敏感、学习实验——CPU 跑没毛病。
实时对话、代码生成、多用户同时用——还是需要 GPU。
如果想低成本加速:二手 RTX 3060 12G 大约 1500 元,7B~13B 都能跑。或者租云 GPU,AutoDL 上 RTX 4090 大概 2~4 元/小时,用完就关。