Gemma 4模型本地部署 • ZhenXI~Blog

一、Gemma 4

Gemma 4 于 Apr 02, 2026 2026 年 4 月 2 日发布。

官方介绍地址：Gemma 4：迄今为止我们最强大的开源模型

二、部署要求

2.1 查看可部署模型

通过：CanIRun.ai — Can your machine run AI models? 选择自己的配置从而查看是否能够进行本地部署。

其中绿色是运行良好、黄色勉强运行(完全没问题)、深黄勉强运行。

这里我选择部署Gemma 4 E4B模型，可根据自己的电脑配置进行选择。

模型	规模/定位	速度	显存占用	回答质量	复杂推理	本地易用性
Gemma 4 E4B	小型/轻量	快	低	中	较弱	高
Gemma 4 26B-A4B	中大型 + 压缩	中	中	较强	较强	中
Gemma 4 31B	大型完整版	慢	高	强	强	低

2.2 下载模型

HauhauCS/Gemma-4-E4B-无审查-HauhauCS-激进版 · Hugging Face --- HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive · Hugging Face

其中含义：

项目	含义	越高/越大意味着什么
Quant	量化格式名称	不同格式压缩方式不同
BPW	Bits Per Weight，每个权重平均占用 bit 数	越高通常质量越好、体积越大
Size	文件大小	越大通常越占磁盘/显存

Quant	BPW	Size	大致定位	优点	缺点	推荐度
Q8_K_P	9.4	7.6 GB	高质量档	最接近高精度，损失小	很重	显存足够时推荐
Q6_K_P	7.0	5.9 GB	高质量平衡档	质量高，体积明显小于Q8	仍不算轻	很推荐
Q5_K_P	6.1	5.5 GB	偏质量折中档	质量较好	比Q4稍重	推荐
Q5_K_M	5.7	5.4 GB	均衡档	大小与质量平衡好	比Q6略差	很推荐
Q4_K_P	5.2	5.1 GB	省资源但保质量	比Q4_M略好	还是有压缩损失	推荐
Q4_K_M	4.8	5.0 GB	主流实用档	轻、稳、常用	复杂任务稍弱	非常推荐
IQ4_XS	4.3	4.8 GB	智能低比特档	更小体积下尽量保效果	具体表现看模型	可尝试
Q3_K_P	4.1	4.6 GB	激进压缩档	更省资源	质量下降明显	仅资源紧张时
Q3_K_M	3.9	4.6 GB	激进压缩档	更轻	稳定性更差	仅资源紧张时
IQ3_M	3.7	4.4 GB	智能超低比特档	很省	质量损失较明显	低资源尝试
Q2_K_P	3.5	4.2 GB	极限压缩档	最省资源	质量损失大	不太推荐主用

选择你配置下可运行的模型文件即可，以及下载下述文件：

多模态投影文件，简称 mmproj；让模型能“看图”的关键配套文件。

2.3 下载llama.cpp(用于运行模型)

①通过 nvidia-smi 命令查看本机CUDA Version，版本需12.4及以上！

②找到适合的进行下载

Releases · ggml-org/llama.cpp

使用显卡选择cuda-12.4的即可。

2.4 工具齐全

将llama文件解压到没有中文目录的位置，再把模型文件放入即可。

三、模型运行

3.1 窗口运行

在llama文件夹窗口，输入cmd

输入命令：

.\llama-cli.exe -m Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q8_K_P.gguf --mmproj mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf  -cnv -ngl 42 --temp 1.0 --top-p 0.95 --top-k 64 --jinja

看到下图即成功：
这时候你已经可以进行窗口聊天了。请记住这个build，这个既是我们后续使用的API Key！

3.2 服务运行

可以将其运行至一个端口，再通过端口使用Cherry Studio进行连接使用：

.\llama-server.exe -m Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf --mmproj mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf -ngl 42 --port 11434

打开Cherry Studio添加OpenAI提供商：

输入默认API地址以及上述说的API密钥！获取模型列表添加即可。

记得点击模型设置，将视觉打开。这样就可以识别图片了。

Cherry Studio中使用Gemma 4识别图片：

本地资源消耗：Q8_K_P版本： Q6_K_P版本：