MEMZGBL的博客

1107 字

3 分钟

GLM-5.1 开源了！Linux + Windows 本地部署教程

2026-04-11

MEMZGBL

GLM-5.1

/

本地部署

/

开源模型

/

AI编程

/

Linux

/

Windows

GLM-5.1 开源了！Linux + Windows 本地部署教程#

2026年4月8日，智谱AI（Z.ai）将GLM-5.1的模型权重开源。该模型总参数量7540亿，采用MoE架构，在SWE-Bench Pro上以58.4%的得分超越GPT-5.4和Claude Opus 4.6，是目前开源模型中代码能力最强的。许可证为MIT，允许个人和商业免费使用

1. 硬件要求概览#

方案	操作系统	硬件要求	性能参考
vLLM + FP8	Linux / WSL2	单卡40GB+ 或多卡	接近全精度
llama.cpp + FP8	Linux / Windows	单卡24GB+	3-8 token/s
LM Studio	Windows	等待GGUF稳定版	—
云GPU租赁	任意	无本地要求	取决于实例
官方API	任意	无要求	按量计费

个人建议：个人用户首选官方FP8量化 + vLLM（Linux/WSL2），或者直接用官方API。Windows 原生用户可以用 llama.cpp 跑 FP8

2. 模型权重下载（官方FP8量化版）#

智谱官方提供了 FP8 量化版本，可以直接用于 vLLM 和 llama.cpp。体积约 400GB，比 BF16 的 1.5TB 小很多

Linux / WSL2（推荐用 ModelScope，国内快）：

1
sudo apt install git-lfs
2
git lfs install
3
git clone https://modelscope.cn/models/ZhipuAI/GLM-5.1-FP8

或者 Hugging Face：

1
git clone https://huggingface.co/zai-org/GLM-5.1-FP8

Windows 原生：用 Git for Windows 执行上述命令，或者直接下载 zip 包（不推荐，文件太大）

3. Linux 部署方案（Ubuntu 22.04）#

3.1 基础环境#

1
sudo apt update && sudo apt install python3.10 python3-pip -y
2
python3.10 -m venv glm-env
3
source glm-env/bin/activate

3.2 方案A：vLLM（推荐，性能最高）#

vLLM 版本需 ≥ 0.10.0，且需要 CUDA 环境

1
pip install vllm

单卡运行（显存 ≥ 40GB）：

1
vllm serve /path/to/GLM-5.1-FP8 \
2
  --quantization fp8 \
3
  --dtype float16 \
4
  --max-model-len 65536 \
5
  --port 8000

多卡并行（例如 4 卡）：

1
vllm serve /path/to/GLM-5.1-FP8 \
2
  --tensor-parallel-size 4 \
3
  --quantization fp8 \
4
  --port 8000

测试：

1
curl http://localhost:8000/v1/chat/completions \
2
  -H "Content-Type: application/json" \
3
  -d '{
4
    "model": "GLM-5.1",
5
    "messages": [{"role": "user", "content": "用Python写一个快速排序"}]
6
  }'

3.3 方案B：llama.cpp + FP8#

llama.cpp 从 2026 年 4 月的版本开始支持 FP8 格式

1
git clone https://github.com/ggerganov/llama.cpp
2
cd llama.cpp
3
make -j8

直接加载 FP8 目录（需要先转换，llama.cpp 提供了 convert.py）：

1
python convert.py /path/to/GLM-5.1-FP8 --outtype f16
2
./main -m glm-5.1-f16.gguf -p "写一个快排" -n 512

更简单的方法：使用 llama.cpp 的 server 模式：

1
./server -m glm-5.1-f16.gguf --host 0.0.0.0 --port 8080

4. Windows 部署方案#

4.1 方案A：WSL2 + vLLM（高性能，推荐）#

WSL2 可以利用 Windows 主机的 GPU，性能几乎无损失

启用 WSL2（需要 Win10 21H2+ 或 Win11）：

1
wsl --install -d Ubuntu-22.04

然后进入 WSL2，按照第 3 节的 Linux 方案操作

4.2 方案B：llama.cpp 原生 Windows#

编译（需要 Visual Studio 和 CMake）：

1
git clone https://github.com/ggerganov/llama.cpp
2
cd llama.cpp
3
mkdir build && cd build
4
cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON
5
cmake --build . --config Release -j 8

运行（需先将 FP8 权重转换为 GGUF，同 3.3 节）：

1
.\build\bin\Release\main.exe -m D:\glm-5.1-f16.gguf -p "写一个快排" -n 512

4.3 方案C：LM Studio（等待社区GGUF）#

LM Studio 目前只支持 GGUF 格式。虽然 Unsloth 的链接失效，但你可以自己用 llama.cpp 转换 FP8 为 GGUF（见 3.3 节），然后导入 LM Studio。

导入步骤：

打开 LM Studio，点击左侧 “Local models”
点击 “Add local model”，选择你转换好的 .gguf 文件
切换到 “Chat” 标签开始对话

4.4 方案D：直接用官方API（最简单）#

在 Windows 上写个 Python 脚本调用 BigModel API：

1
from openai import OpenAI
2

3
client = OpenAI(
4
    api_key="你的API Key",
5
    base_url="https://open.bigmodel.cn/api/paas/v4/"
6
)
7

8
response = client.chat.completions.create(
9
    model="glm-5.1",
10
    messages=[{"role": "user", "content": "写一个二分查找"}]
11
)
12
print(response.choices[0].message.content)

5. 云GPU租赁（无需本地硬件）#

如果本地硬件不够，租用云 GPU 是最省心的办法。

服务商	推荐配置	价格	适用平台
Lambda Labs	8×A100 80GB	~$1.25/小时	Linux
RunPod	4×A100 80GB	~$0.99/小时	Linux
Vast.ai	按需竞价	最低$0.5/小时	Linux

租用后通过 SSH 连接，按 Linux 的 vLLM 方案部署即可。记得设置预算上限，用完及时销毁。

6. 集成到开发工具#

无论使用 vLLM 还是 llama.cpp，只要启动了 OpenAI 兼容的 API 服务（默认端口 8000 或 8080），就可以接入 VS Code。

6.1 VS Code + Continue#

在 Continue 配置文件中添加：

1
{
2
  "models": [
3
    {
4
      "title": "GLM-5.1",
5
      "provider": "openai",
6
      "model": "GLM-5.1",
7
      "apiBase": "http://localhost:8000/v1",
8
      "apiKey": "EMPTY"
9
    }
10
  ]
11
}

6.2 Claude Code#

订阅 GLM Coding Plan 后，在 Claude Code 中将模型名设置为 GLM-5.1。

7. 常见问题与排查#

问题	解决方法
vLLM 报显存不足	减小 `--max-model-len`（如 32768），或降低 `--gpu-memory-utilization` 到 0.8
模型下载太慢	使用 ModelScope 国内源；Git LFS 可配置断点续传
llama.cpp 不支持 FP8	升级 llama.cpp 到最新版（2026年4月后）
WSL2 无法识别 GPU	在 Windows 安装 NVIDIA 驱动 for WSL2，重启 WSL2
API 返回 404	检查 endpoint 是否为 `/v1/chat/completions`，确认服务已启动
量化版回答质量下降	FP8 量化精度损失很小，通常不影响效果。若仍有问题，换用 BF16（需更高显存）

最后，希望这篇教程能帮你真正跑起来。