监控 – 95博客

Ollama 多模型同时运行 + 资源监控：避免 OOM 崩溃的实用配置

云烟 — Thu, 09 Apr 2026 07:00:00 +0000

多个模型同时跑的时候，内存管理不当很容易 OOM。这篇就讲怎么控制，别等机器崩了才想办法。

Ollama 是怎么管理模型的

每次请求，Ollama 按需加载模型到内存。关键是加载后不会立刻卸载——有个 5 分钟的 keep alive 时间。这段时间里模型占着内存等下一个请求，来了就不用重新加载。

这本来是好事。但如果你连续切几个模型，比如先调 qwen 做翻译，再调 llama 写代码，再调 gemma 做总结，三个模型同时占着内存，可能直接就爆了。

查看当前加载的模型

ollama ps

输出类似：

NAME              ID           SIZE     PROCESSOR    UNTIL
qwen2.5:7b        1234abcd     4.7 GB   100% GPU     4m30s from now
llama3.1:8b       5678efgh     4.9 GB   100% GPU     2m15s from now

能看到每个模型占了多少、跑在 CPU 还是 GPU、还有多久自动卸载。

控制模型驻留时间

每次请求可以指定 keep_alive：

# 10分钟后才卸载
curl http://localhost:11434/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"你好"}],"keep_alive":"10m"}'

# 用完立刻卸载
curl http://localhost:11434/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"你好"}],"keep_alive":"0s"}'

# 永久驻留（只要内存够就不卸载）
curl http://localhost:11434/api/chat -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"你好"}],"keep_alive":"-1"}'

嫌每次指定麻烦，直接改全局默认：

sudo systemctl edit ollama
[Service]
Environment="OLLAMA_KEEP_ALIVE=2m"  # 改成2分钟，更快释放
# 或者
Environment="OLLAMA_KEEP_ALIVE=0s"  # 用完就释放

防止 OOM 的几个配置

限制上下文窗口——这是吃内存大户。8G 机器控制在 2048 或 4096，16G 可以开到 8192。Modelfile 里加 PARAMETER num_ctx 2048。

限制同时加载的模型数：

Environment="OLLAMA_MAX_LOADED_MODELS=2"

GPU 显存不够的话可以控制多少层放 GPU：

ollama show qwen2.5:7b --modelfile > /tmp/MF
echo "PARAMETER num_gpu 20" >> /tmp/MF  # 假设模型有32层，只放20层到GPU
ollama create qwen2.5:7b-partial -f /tmp/MF

遇到 OOM 了怎么办

紧急处理：

# 卸载所有模型
curl -X POST http://localhost:11434/api/ps

# 重启 Ollama
sudo systemctl restart ollama

排查原因：

dmesg | grep -i "out of memory|oom"
journalctl -u ollama --since "1 hour ago"

监控脚本

简单跑个后台，内存超过阈值自动卸载模型：

#!/bin/bash
while true; do
    MEM=$(free | awk '/Mem:/ {printf "%.0f", $3/$2 * 100}')
    if [ "$MEM" -ge 90 ]; then
        echo "[$(date)] 内存 ${MEM}%，卸载所有模型"
        curl -s -X POST http://localhost:11434/api/ps
    fi
    sleep 10
done

后台跑着：nohup bash ~/ollama-watch.sh > /var/log/ollama-watch.log 2>&1 &

Docker 运维实战：备份、迁移、端口映射、日志监控、资源限制

云烟 — Thu, 09 Apr 2026 06:05:39 +0000

Docker 跑起来只是第一步。备份、迁移、日志、资源限制——这些日常运维的东西，实际用到了才知道有多重要。

数据备份

Volume 备份

docker run --rm 
  -v ollama_ollama-data:/data 
  -v $(pwd):/backup 
  alpine tar czf /backup/ollama-backup-$(date +%F).tar.gz -C /data .

恢复就是反过来 tar xzf。

compose 文件放 Git

配置文件比数据更重要——没有 compose 文件，连容器都起不来。建议放 Git 仓库里管理。

自动备份脚本

每周定时跑一次，清理 30 天前的旧备份：

#!/bin/bash
BACKUP_DIR="/data/backups/docker"
mkdir -p $BACKUP_DIR
for vol in $(docker volume ls -q); do
  docker run --rm -v $vol:/data:ro -v $BACKUP_DIR:/backup alpine tar czf /backup/${vol}-$(date +%F).tar.gz -C /data .
done
find $BACKUP_DIR -name "*.tar.gz" -mtime +30 -delete

加 cron：0 3 * * 0 /usr/local/bin/docker-backup.sh

迁移到另一台服务器

# 旧服务器
cd /opt/ai-stack
docker compose down
tar czf /tmp/ai-stack.tar.gz /opt/ai-stack
scp /tmp/ai-stack.tar.gz root@新IP:/tmp/

# 新服务器
tar xzf /tmp/ai-stack.tar.gz -C /
curl -fsSL https://get.docker.com | sh
cd /opt/ai-stack && docker compose up -d

模型数据也在 tar 里的话，不需要重新拉。直接能用。

端口映射

只监听本机最安全：127.0.0.1:3000:8080。外面通过 Nginx 反代访问。

冲突排查：ss -tlnp | grep 3000 看哪个进程占了端口。或者 docker ps --format "table {{.Names}}t{{.Ports}}"。

日志管理

限制日志大小。这个很重要，不限制的话跑几个月吃满磁盘：

cat > /etc/docker/daemon.json << 'EOF'
{
  "log-driver": "json-file",
  "log-opts": {
    "max-size": "50m",
    "max-file": "3"
  }
}
EOF
systemctl restart docker

每个容器最多 3 个日志文件，每个 50MB。

清理旧日志

for f in $(find /var/lib/docker/containers/ -name "*.log"); do
  truncate -s 0 $f
done

资源限制

默认容器能吃多少吃多少。Ollama 把内存吃光，MySQL 和 Nginx 也会跟着挂。限制一下：

services:
  ollama:
    deploy:
      resources:
        limits:
          memory: 8G
          cpus: "4"
        reservations:
          memory: 4G

这样即使 Ollama 出问题，也不会把整台机器拖死。

健康检查

services:
  ollama:
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:11434"]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 40s

查看状态：docker ps --format "table {{.Names}}t{{.Status}}"

常用命令

docker stats 看实时资源占用。docker system df 看磁盘使用。

更新服务：docker compose pull && docker compose up -d。

清理悬空镜像：docker image prune。慎用 docker system prune -a，会删掉所有不用的镜像。

Ollama 的模型数据在 volume 里，不在 Docker image 里。清理 Docker 镜像不会删模型。模型用 ollama rm 模型名 删。