GLM-5.1 开源了!Linux + Windows 本地部署教程
2026年4月8日,智谱AI(Z.ai)将GLM-5.1的模型权重开源。该模型总参数量7540亿,采用MoE架构,在SWE-Bench Pro上以58.4%的得分超越GPT-5.4和Claude Opus 4.6,是目前开源模型中代码能力最强的。许可证为MIT,允许个人和商业免费使用
1. 硬件要求概览
| 方案 | 操作系统 | 硬件要求 | 性能参考 |
|---|---|---|---|
| vLLM + FP8 | Linux / WSL2 | 单卡40GB+ 或多卡 | 接近全精度 |
| llama.cpp + FP8 | Linux / Windows | 单卡24GB+ | 3-8 token/s |
| LM Studio | Windows | 等待GGUF稳定版 | — |
| 云GPU租赁 | 任意 | 无本地要求 | 取决于实例 |
| 官方API | 任意 | 无要求 | 按量计费 |
个人建议:个人用户首选官方FP8量化 + vLLM(Linux/WSL2),或者直接用官方API。Windows 原生用户可以用 llama.cpp 跑 FP8
2. 模型权重下载(官方FP8量化版)
智谱官方提供了 FP8 量化版本,可以直接用于 vLLM 和 llama.cpp。体积约 400GB,比 BF16 的 1.5TB 小很多
Linux / WSL2(推荐用 ModelScope,国内快):
sudo apt install git-lfsgit lfs installgit clone https://modelscope.cn/models/ZhipuAI/GLM-5.1-FP8或者 Hugging Face:
git clone https://huggingface.co/zai-org/GLM-5.1-FP8Windows 原生:用 Git for Windows 执行上述命令,或者直接下载 zip 包(不推荐,文件太大)
3. Linux 部署方案(Ubuntu 22.04)
3.1 基础环境
sudo apt update && sudo apt install python3.10 python3-pip -ypython3.10 -m venv glm-envsource glm-env/bin/activate3.2 方案A:vLLM(推荐,性能最高)
vLLM 版本需 ≥ 0.10.0,且需要 CUDA 环境
pip install vllm单卡运行(显存 ≥ 40GB):
vllm serve /path/to/GLM-5.1-FP8 \ --quantization fp8 \ --dtype float16 \ --max-model-len 65536 \ --port 8000多卡并行(例如 4 卡):
vllm serve /path/to/GLM-5.1-FP8 \ --tensor-parallel-size 4 \ --quantization fp8 \ --port 8000测试:
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "GLM-5.1", "messages": [{"role": "user", "content": "用Python写一个快速排序"}] }'3.3 方案B:llama.cpp + FP8
llama.cpp 从 2026 年 4 月的版本开始支持 FP8 格式
git clone https://github.com/ggerganov/llama.cppcd llama.cppmake -j8直接加载 FP8 目录(需要先转换,llama.cpp 提供了 convert.py):
python convert.py /path/to/GLM-5.1-FP8 --outtype f16./main -m glm-5.1-f16.gguf -p "写一个快排" -n 512更简单的方法:使用 llama.cpp 的 server 模式:
./server -m glm-5.1-f16.gguf --host 0.0.0.0 --port 80804. Windows 部署方案
4.1 方案A:WSL2 + vLLM(高性能,推荐)
WSL2 可以利用 Windows 主机的 GPU,性能几乎无损失
启用 WSL2(需要 Win10 21H2+ 或 Win11):
wsl --install -d Ubuntu-22.04然后进入 WSL2,按照第 3 节的 Linux 方案操作
4.2 方案B:llama.cpp 原生 Windows
编译(需要 Visual Studio 和 CMake):
git clone https://github.com/ggerganov/llama.cppcd llama.cppmkdir build && cd buildcmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ONcmake --build . --config Release -j 8运行(需先将 FP8 权重转换为 GGUF,同 3.3 节):
.\build\bin\Release\main.exe -m D:\glm-5.1-f16.gguf -p "写一个快排" -n 5124.3 方案C:LM Studio(等待社区GGUF)
LM Studio 目前只支持 GGUF 格式。虽然 Unsloth 的链接失效,但你可以自己用 llama.cpp 转换 FP8 为 GGUF(见 3.3 节),然后导入 LM Studio。
导入步骤:
- 打开 LM Studio,点击左侧 “Local models”
- 点击 “Add local model”,选择你转换好的 .gguf 文件
- 切换到 “Chat” 标签开始对话
4.4 方案D:直接用官方API(最简单)
在 Windows 上写个 Python 脚本调用 BigModel API:
from openai import OpenAI
client = OpenAI( api_key="你的API Key", base_url="https://open.bigmodel.cn/api/paas/v4/")
response = client.chat.completions.create( model="glm-5.1", messages=[{"role": "user", "content": "写一个二分查找"}])print(response.choices[0].message.content)5. 云GPU租赁(无需本地硬件)
如果本地硬件不够,租用云 GPU 是最省心的办法。
| 服务商 | 推荐配置 | 价格 | 适用平台 |
|---|---|---|---|
| Lambda Labs | 8×A100 80GB | ~$1.25/小时 | Linux |
| RunPod | 4×A100 80GB | ~$0.99/小时 | Linux |
| Vast.ai | 按需竞价 | 最低$0.5/小时 | Linux |
租用后通过 SSH 连接,按 Linux 的 vLLM 方案部署即可。记得设置预算上限,用完及时销毁。
6. 集成到开发工具
无论使用 vLLM 还是 llama.cpp,只要启动了 OpenAI 兼容的 API 服务(默认端口 8000 或 8080),就可以接入 VS Code。
6.1 VS Code + Continue
在 Continue 配置文件中添加:
{ "models": [ { "title": "GLM-5.1", "provider": "openai", "model": "GLM-5.1", "apiBase": "http://localhost:8000/v1", "apiKey": "EMPTY" } ]}6.2 Claude Code
订阅 GLM Coding Plan 后,在 Claude Code 中将模型名设置为 GLM-5.1。
7. 常见问题与排查
| 问题 | 解决方法 |
|---|---|
| vLLM 报显存不足 | 减小 --max-model-len(如 32768),或降低 --gpu-memory-utilization 到 0.8 |
| 模型下载太慢 | 使用 ModelScope 国内源;Git LFS 可配置断点续传 |
| llama.cpp 不支持 FP8 | 升级 llama.cpp 到最新版(2026年4月后) |
| WSL2 无法识别 GPU | 在 Windows 安装 NVIDIA 驱动 for WSL2,重启 WSL2 |
| API 返回 404 | 检查 endpoint 是否为 /v1/chat/completions,确认服务已启动 |
| 量化版回答质量下降 | FP8 量化精度损失很小,通常不影响效果。若仍有问题,换用 BF16(需更高显存) |
最后,希望这篇教程能帮你真正跑起来。
相关链接
- 智谱官方博客:https://z.ai/blog/glm-5.1
- GitHub:https://github.com/zai-org/GLM-5
- 官方FP8权重(ModelScope):https://modelscope.cn/models/ZhipuAI/GLM-5.1-FP8
- 官方FP8权重(Hugging Face):https://huggingface.co/zai-org/GLM-5.1-FP8
- vLLM 文档:https://docs.vllm.ai
- BigModel API:https://docs.bigmodel.cn
如果这篇文章对你有帮助,欢迎分享给更多人!
部分信息可能已经过时









