Gemma 4模型本地部署
/ 5 min read
一、Gemma 4
Gemma 4 于 Apr 02, 2026 2026 年 4 月 2 日发布。
官方介绍地址:Gemma 4:迄今为止我们最强大的开源模型
二、部署要求
2.1 查看可部署模型
通过:CanIRun.ai — Can your machine run AI models? 选择自己的配置从而查看是否能够进行本地部署。
其中绿色是运行良好、黄色勉强运行(完全没问题)、深黄勉强运行。
这里我选择部署Gemma 4 E4B模型,可根据自己的电脑配置进行选择。
| 模型 | 规模/定位 | 速度 | 显存占用 | 回答质量 | 复杂推理 | 本地易用性 |
|---|---|---|---|---|---|---|
| Gemma 4 E4B | 小型/轻量 | 快 | 低 | 中 | 较弱 | 高 |
| Gemma 4 26B-A4B | 中大型 + 压缩 | 中 | 中 | 较强 | 较强 | 中 |
| Gemma 4 31B | 大型完整版 | 慢 | 高 | 强 | 强 | 低 |
2.2 下载模型
其中含义:
| 项目 | 含义 | 越高/越大意味着什么 |
|---|---|---|
| Quant | 量化格式名称 | 不同格式压缩方式不同 |
| BPW | Bits Per Weight,每个权重平均占用 bit 数 | 越高通常质量越好、体积越大 |
| Size | 文件大小 | 越大通常越占磁盘/显存 |
| Quant | BPW | Size | 大致定位 | 优点 | 缺点 | 推荐度 |
|---|---|---|---|---|---|---|
| Q8_K_P | 9.4 | 7.6 GB | 高质量档 | 最接近高精度,损失小 | 很重 | 显存足够时推荐 |
| Q6_K_P | 7.0 | 5.9 GB | 高质量平衡档 | 质量高,体积明显小于Q8 | 仍不算轻 | 很推荐 |
| Q5_K_P | 6.1 | 5.5 GB | 偏质量折中档 | 质量较好 | 比Q4稍重 | 推荐 |
| Q5_K_M | 5.7 | 5.4 GB | 均衡档 | 大小与质量平衡好 | 比Q6略差 | 很推荐 |
| Q4_K_P | 5.2 | 5.1 GB | 省资源但保质量 | 比Q4_M略好 | 还是有压缩损失 | 推荐 |
| Q4_K_M | 4.8 | 5.0 GB | 主流实用档 | 轻、稳、常用 | 复杂任务稍弱 | 非常推荐 |
| IQ4_XS | 4.3 | 4.8 GB | 智能低比特档 | 更小体积下尽量保效果 | 具体表现看模型 | 可尝试 |
| Q3_K_P | 4.1 | 4.6 GB | 激进压缩档 | 更省资源 | 质量下降明显 | 仅资源紧张时 |
| Q3_K_M | 3.9 | 4.6 GB | 激进压缩档 | 更轻 | 稳定性更差 | 仅资源紧张时 |
| IQ3_M | 3.7 | 4.4 GB | 智能超低比特档 | 很省 | 质量损失较明显 | 低资源尝试 |
| Q2_K_P | 3.5 | 4.2 GB | 极限压缩档 | 最省资源 | 质量损失大 | 不太推荐主用 |
选择你配置下可运行的模型文件即可,以及下载下述文件:
多模态投影文件,简称 mmproj;让模型能“看图”的关键配套文件。
2.3 下载llama.cpp(用于运行模型)
①通过 nvidia-smi 命令查看本机CUDA Version,版本需12.4及以上!
②找到适合的进行下载
使用显卡选择cuda-12.4的即可。
2.4 工具齐全
将llama文件解压到没有中文目录的位置,再把模型文件放入即可。
三、模型运行
3.1 窗口运行
在llama文件夹窗口,输入cmd
输入命令:
.\llama-cli.exe -m Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q8_K_P.gguf --mmproj mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf -cnv -ngl 42 --temp 1.0 --top-p 0.95 --top-k 64 --jinja看到下图即成功:
这时候你已经可以进行窗口聊天了。请记住这个build,这个既是我们后续使用的API Key!
3.2 服务运行
可以将其运行至一个端口,再通过端口使用Cherry Studio进行连接使用:
.\llama-server.exe -m Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf --mmproj mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf -ngl 42 --port 11434
打开Cherry Studio添加OpenAI提供商:
输入默认API地址以及上述说的API密钥!获取模型列表添加即可。
记得点击模型设置,将视觉打开。这样就可以识别图片了。
Cherry Studio中使用Gemma 4识别图片:

本地资源消耗:Q8_K_P版本:
Q6_K_P版本:
