mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
1107 字
3 分钟
GLM-5.1 开源了!Linux + Windows 本地部署教程

GLM-5.1 开源了!Linux + Windows 本地部署教程#

2026年4月8日,智谱AI(Z.ai)将GLM-5.1的模型权重开源。该模型总参数量7540亿,采用MoE架构,在SWE-Bench Pro上以58.4%的得分超越GPT-5.4和Claude Opus 4.6,是目前开源模型中代码能力最强的。许可证为MIT,允许个人和商业免费使用

1. 硬件要求概览#

方案操作系统硬件要求性能参考
vLLM + FP8Linux / WSL2单卡40GB+ 或多卡接近全精度
llama.cpp + FP8Linux / Windows单卡24GB+3-8 token/s
LM StudioWindows等待GGUF稳定版
云GPU租赁任意无本地要求取决于实例
官方API任意无要求按量计费

个人建议:个人用户首选官方FP8量化 + vLLM(Linux/WSL2),或者直接用官方API。Windows 原生用户可以用 llama.cpp 跑 FP8

2. 模型权重下载(官方FP8量化版)#

智谱官方提供了 FP8 量化版本,可以直接用于 vLLM 和 llama.cpp。体积约 400GB,比 BF16 的 1.5TB 小很多

Linux / WSL2(推荐用 ModelScope,国内快):

sudo apt install git-lfs
git lfs install
git clone https://modelscope.cn/models/ZhipuAI/GLM-5.1-FP8

或者 Hugging Face

git clone https://huggingface.co/zai-org/GLM-5.1-FP8

Windows 原生:用 Git for Windows 执行上述命令,或者直接下载 zip 包(不推荐,文件太大)

3. Linux 部署方案(Ubuntu 22.04)#

3.1 基础环境#

sudo apt update && sudo apt install python3.10 python3-pip -y
python3.10 -m venv glm-env
source glm-env/bin/activate

3.2 方案A:vLLM(推荐,性能最高)#

vLLM 版本需 ≥ 0.10.0,且需要 CUDA 环境

pip install vllm

单卡运行(显存 ≥ 40GB):

vllm serve /path/to/GLM-5.1-FP8 \
--quantization fp8 \
--dtype float16 \
--max-model-len 65536 \
--port 8000

多卡并行(例如 4 卡):

vllm serve /path/to/GLM-5.1-FP8 \
--tensor-parallel-size 4 \
--quantization fp8 \
--port 8000

测试:

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "GLM-5.1",
"messages": [{"role": "user", "content": "用Python写一个快速排序"}]
}'

3.3 方案B:llama.cpp + FP8#

llama.cpp 从 2026 年 4 月的版本开始支持 FP8 格式

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j8

直接加载 FP8 目录(需要先转换,llama.cpp 提供了 convert.py):

python convert.py /path/to/GLM-5.1-FP8 --outtype f16
./main -m glm-5.1-f16.gguf -p "写一个快排" -n 512

更简单的方法:使用 llama.cppserver 模式:

./server -m glm-5.1-f16.gguf --host 0.0.0.0 --port 8080

4. Windows 部署方案#

4.1 方案A:WSL2 + vLLM(高性能,推荐)#

WSL2 可以利用 Windows 主机的 GPU,性能几乎无损失

启用 WSL2(需要 Win10 21H2+ 或 Win11):

Terminal window
wsl --install -d Ubuntu-22.04

然后进入 WSL2,按照第 3 节的 Linux 方案操作

4.2 方案B:llama.cpp 原生 Windows#

编译(需要 Visual Studio 和 CMake):

Terminal window
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DGGML_CUDA=ON
cmake --build . --config Release -j 8

运行(需先将 FP8 权重转换为 GGUF,同 3.3 节):

Terminal window
.\build\bin\Release\main.exe -m D:\glm-5.1-f16.gguf -p "写一个快排" -n 512

4.3 方案C:LM Studio(等待社区GGUF)#

LM Studio 目前只支持 GGUF 格式。虽然 Unsloth 的链接失效,但你可以自己用 llama.cpp 转换 FP8 为 GGUF(见 3.3 节),然后导入 LM Studio。

导入步骤:

  1. 打开 LM Studio,点击左侧 “Local models”
  2. 点击 “Add local model”,选择你转换好的 .gguf 文件
  3. 切换到 “Chat” 标签开始对话

4.4 方案D:直接用官方API(最简单)#

在 Windows 上写个 Python 脚本调用 BigModel API:

from openai import OpenAI
client = OpenAI(
api_key="你的API Key",
base_url="https://open.bigmodel.cn/api/paas/v4/"
)
response = client.chat.completions.create(
model="glm-5.1",
messages=[{"role": "user", "content": "写一个二分查找"}]
)
print(response.choices[0].message.content)

5. 云GPU租赁(无需本地硬件)#

如果本地硬件不够,租用云 GPU 是最省心的办法。

服务商推荐配置价格适用平台
Lambda Labs8×A100 80GB~$1.25/小时Linux
RunPod4×A100 80GB~$0.99/小时Linux
Vast.ai按需竞价最低$0.5/小时Linux

租用后通过 SSH 连接,按 Linux 的 vLLM 方案部署即可。记得设置预算上限,用完及时销毁。

6. 集成到开发工具#

无论使用 vLLM 还是 llama.cpp,只要启动了 OpenAI 兼容的 API 服务(默认端口 8000 或 8080),就可以接入 VS Code。

6.1 VS Code + Continue#

在 Continue 配置文件中添加:

{
"models": [
{
"title": "GLM-5.1",
"provider": "openai",
"model": "GLM-5.1",
"apiBase": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
]
}

6.2 Claude Code#

订阅 GLM Coding Plan 后,在 Claude Code 中将模型名设置为 GLM-5.1

7. 常见问题与排查#

问题解决方法
vLLM 报显存不足减小 --max-model-len(如 32768),或降低 --gpu-memory-utilization 到 0.8
模型下载太慢使用 ModelScope 国内源;Git LFS 可配置断点续传
llama.cpp 不支持 FP8升级 llama.cpp 到最新版(2026年4月后)
WSL2 无法识别 GPU在 Windows 安装 NVIDIA 驱动 for WSL2,重启 WSL2
API 返回 404检查 endpoint 是否为 /v1/chat/completions,确认服务已启动
量化版回答质量下降FP8 量化精度损失很小,通常不影响效果。若仍有问题,换用 BF16(需更高显存)

最后,希望这篇教程能帮你真正跑起来。

相关链接#

分享

如果这篇文章对你有帮助,欢迎分享给更多人!

GLM-5.1 开源了!Linux + Windows 本地部署教程
http://blog.mcstarland.top/posts/glm/
作者
MEMZGBL
发布于
2026-04-11
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00