共计 1995 个字符,预计需要花费 5 分钟才能阅读完成。
2026 年 4 月 2 日凌晨,谷歌 DeepMind CEO Demis Hassabis 在 X 上发了四颗钻石 emoji,几个小时后,谜底揭晓——Gemma 4 全系列正式发布。
这次不是常规更新,而是开源大模型格局的彻底重写。31B Dense 版本直接冲到 Arena AI 排行榜全球第三,用不到十分之一的参数量就能跟 400 亿参数的巨无霸掰手腕。更关键的是,谷歌这次彻底放下姿态,全系列采用 Apache 2.0 开源协议,没有任何商业限制。

Gemma 4 是谷歌推出的一款 开源本地大模型 ,主要用于支持多模态数据处理和离线运行。该模型在人工智能领域具有重要的突破,尤其是在处理多种数据形式(如文本、图像、视频和语音)时的能力。它能够提供一种本地运行的解决方案,无需依赖持续的网络连接,适用于各种智能化应用场景。
一、四款模型,覆盖全场景
Gemma 4 不是单一模型,而是一个完整的模型家族,从 2B 到 31B 全场景覆盖:
-
E2B(2.3B 有效参数):专为手机、树莓派等端侧设备设计,内存占用可压至 1.5GB 以下,完全离线运行
-
E4B(4.5B 有效参数):端侧旗舰,支持多模态输入,AIME 2026 数学测试达 42.5%
-
26B MoE:混合专家架构,总参数 260 亿,推理时仅激活 38 亿参数,速度接近 4B 模型
-
31B Dense:旗舰版本,Arena AI 排名全球第三,单张 H100 即可运行

二、小模型打出大牌面
Gemma 4 最让人震惊的,不是它有多大,而是它有多小却能打多强。
在 Arena AI 开源排行榜上,31B Dense 冲到全球第三,Elo 评分 1452。排在前面的 GLM- 5 和 Kimi K2.5,参数量分别是它的 20 倍和 30 倍。谷歌把这叫做 ” 每参数智能 ”——用更少的参数,达到更高的性能。
数学推理方面,AIME 2026 成绩从上一代的 21.2% 跃升至 89.2%,提升幅度高达 68 个百分点。这一成绩已经接近甚至超越部分闭源商业模型。

三、Apache 2.0 协议
如果说性能是惊喜,那许可证的变化才是真正的重磅炸弹。
此前 Gemma 前三代产品用的都是谷歌自定义的开源协议,不仅有诸多商用限制,谷歌还能单方面修改规则。这次,Gemma 4 全系列采用 Apache 2.0 许可证,意味着:
-
✅ 可自由用于商业用途
-
✅ 可修改、分发、二次开发
-
✅ 专利授权明确,降低法律风险
-
✅ 与现有开源生态无缝兼容
Hugging Face 联合创始人 Clément Delangue 评价:” 这是开源 AI 领域的一个重大里程碑。”
四、核心技术亮点
1. 多模态能力
Gemma 4 全系支持图像和视频输入,E2B 和 E4B 还额外支持原生音频输入,内置约 3 亿参数的音频编码器。这意味着开发者可以用 Gemma 4 构建真正的多模态 AI 应用。
2. Agent 原生支持
Gemma 4 原生支持函数调用(Function Calling)和结构化 JSON 输出,内置 System Prompt 支持,可作为 Agent 的核心大脑,自主规划多步骤任务、调用外部工具。
3. 思考模式
所有 Gemma 4 模型均支持可开关的思考模式(Thinking Mode)。开启后,模型会先输出内部推理过程,再给出最终答案,适合复杂问题求解。
4. 超长上下文
31B 和 26B 版本支持 256K 的超长上下文窗口,在同参数级别开源模型中属于顶级配置,可处理长文档、代码库分析等复杂任务。
五、部署教程
方式一:Ollama(最简单)
安装 ollama,进入 https://ollama.com/ 先下载 ollama。
# 安装 Ollama(官网下载)
# 运行不同版本:
ollama run gemma4
ollama run gemma4:e2b # 2B 端侧版
ollama run gemma4:e4b # 4B 端侧版
ollama run gemma4:26b # 26B MoE 版
ollama run gemma4:31b # 31B 旗舰版
方式二:llama.cpp
# macOS 安装
brew install llama.cpp --HEAD
# 运行
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
方式三:Mac 用户(MLX)
# 安装
uv pip install -U mlx-vlm
# 运行(带 TurboQuant 优化)
uv run mlx_vlm.generate --model google/gemma-4-31b-it --kv-bits 3.5
硬件要求参考
-
E2B/E4B:8GB 内存即可,手机、树莓派都能跑
-
26B MoE:推荐 16GB+ 显存,消费级 GPU 工作站
-
31B Dense
六、总结






