Google Gemma 4 完全開源深度解析：Apache 2.0 授權、手機端部署架構與邊緣 AI 生態系戰略

2026 年 4 月 2 日，Google DeepMind 發布了 Gemma 4，並宣布採用 Apache 2.0 授權。這在任何意義上都不是一個例行更新——它是 Google 在開源 LLM 領域投下的最重量級炸彈。在此之前，Gemma 系列雖然開放權重，但授權條款中仍帶有使用限制；此次完全切換為 Apache 2.0，代表 Google 在開源策略上的根本轉變。

Gemma 4 的特殊之處不僅在於模型參數的進步，更在於授權模式、部署範圍與生態系布局的全面升級。從 2B 活躍參數的手機端模型到 31B 的桌面級稠密模型，從 Apache 2.0 的完全商用許可到 AICore 的系統級整合——Google 正試圖複製 Android 在行動裝置市場的成功模式，將 Gemma 打造成開源 AI 領域的「Android」。

本文將從模型架構設計、量化部署效能、行動裝置推論管道、以及開源策略的長期影響四個維度，為 ML 工程師與行動開發者提供完整的技術解析。

為什麼 Google 要在此時將 Gemma 4 完全開源？

這是一個戰略抉擇，而非技術決定。回顧 2024-2025 年的開源 LLM 生態，Meta 的 Llama 3 系列和 Mistral AI 的模型已經吸引了大量開發者社群。根據 GitHub 2025 年底的統計，Llama 3 相關的衍生專案與微調版本數量是 Google Gemma 2 的 3.7 倍。這意味著開發者社群與創新動能正在遠離 Google 的平台。

Google 的選擇非常明確：與其對抗開源趨勢，不如引領它。Gemma 4 的 Apache 2.0 授權加上完整的行動端部署工具鏈，是 Google 試圖在開源 LLM 領域建立全新標準的嘗試。這一步棋如果成功，Google 不僅能重新吸引流失的開發者，還能將其雲端服務與 TPU 硬體生態系與 Gemma 深度綁定。

Gemma 4 模型家族：架構設計與規格解析

四種規格與核心定位

Gemma 4 提供了四種變體，覆蓋從手機端到資料中心的全譜系：

模型	總參數	活躍參數	上下文	架構	預估記憶體（4-bit）	主要目標場景
Gemma 4 E2B	2B	2B	128K	Dense	~1.5-2 GB	手機、Raspberry Pi、IoT
Gemma 4 E4B	4B	4B	128K	Dense	~3-4 GB	中階手機、平板
Gemma 4 26B MoE	26B	3.8B	256K	MoE	~8-10 GB	個人電腦、高階平板
Gemma 4 31B Dense	31B	31B	256K	Dense	~16-20 GB	工作站、伺服器

最值得關注的是 26B MoE 版本。它採用 Mixture of Experts 架構，總參數 26B 但每次推論僅啟用 3.8B 的活躍參數——這意味著它的推論速度接近 4B 模型，但表達能力接近 26B 模型。這是專為邊緣裝置設計的權衡方案，也是目前開源 MoE 模型中最具競爭力的選擇之一。

相對前代的性能提升

Gemma 4 的基準測試成績展示了與前代相比的顯著進步。特別值得注意的是小型型號的突破——E2B（2B） 在 GPQA Diamond 上達到 43.4%，與前代旗艦 Gemma 3 27B（42.4%）平分秋色。

基準測試	Gemma 3 27B	Gemma 4 31B (Dense)	提升幅度
MMLU-Pro	61.1%	68.3%	+7.2%
GPQA Diamond	42.4%	46.5%	+4.1%
HumanEval	68.9%	74.5%	+5.6%
Arena Elo Rating	未進前10	#3（開源模型）	顯著進步

這說明 Google 在小型模型的知識蒸餾（Knowledge Distillation）與模型壓縮技術上取得了重大突破。一個 2B 模型擁有接近 27B 模型的推理能力，對行動部署而言是一個巨大的飛躍。

行動裝置部署詳解：AICore、LiteRT-LM 與 MLX

Gemma 4 在行動部署的完整度是其他開源模型無法比擬的。Google 提供了三層部署路徑，涵蓋 Android、iOS 與跨平台場景：

路徑一：Android AICore（系統級部署，推薦）

AICore 是 Android 系統內建的 AI 推論引擎，Google 已將 Gemma 4 模型整合進 Android 14+ 的 AICore 開發人員預覽版。開發者可以透過 ML Kit GenAI Prompt API 直接呼叫：

// Android AICore Gemma 4 呼叫範例
val generativeAi = GenerativeAi.getInstance(context)

val prompt = GenerativeAiPrompt(
    model = GenerativeAiModel.GEMMA_4_E2B,
    systemInstruction = "你是專業的中文技術部落格作者",
    inputText = "解釋什麼是混合式 RAG"
)

scope.launch {
    generativeAi.generate(prompt).collect { response ->
        textView.append(response.text)
    }
}

主要優點：

無需下載模型檔案（系統預先載入）
Google Play Services 統一管理版本更新
自動選擇 CPU/NPU/GPU 執行後端

路徑二：LiteRT-LM（跨平台 CLI/Python）

對於跨平台需求（iOS、Linux、桌面），Google 提供了 LiteRT-LM——一個基於 LiteRT（Lightweight Runtime）的命令列工具與 Python SDK。這是目前最靈活的部署方式。

# LiteRT-LM Python SDK 範例
from literrt_lm import LiteRTModel

model = LiteRTModel.from_pretrained(
    "google/gemma-4-e2b",
    quantization="int4",
    backend="cpu"  # 或 metal (macOS) / opencl / vulkan
)

result = model.generate(
    "用繁體中文解釋什麼是 K8s Service Mesh",
    max_tokens=512,
    temperature=0.7
)
print(result)

LiteRT-LM 在 Raspberry Pi 5 上的實測表現尤其值得關注：

Prefill 速度：133 tokens/s（CPU only）
Decode 速度：7.6 tokens/s（單線）
記憶體使用：約 1.2 GB

這意味著即使是在一台 80 美元的單板電腦上，Gemma 4 E2B 也能提供可用的 AI 能力——對 IoT 與邊緣設備場景意義重大。

路徑三：MLX（Apple Silicon 優化）

對於 Apple 生態系，MLX 社群已提供 Gemma 4 的 Apple Silicon 最佳化版本。在 M4 Max 晶片上的實測數據非常亮眼：

模型	設備	Token/s	實測場景
Gemma 4 E2B (int4)	iPhone 17 Pro	40+	即時翻譯、摘要
Gemma 4 E2B (int4)	MacBook Pro M4 Max	120+	程式碼生成、文件分析
Gemma 4 26B MoE (int4)	MacBook Pro M4 Max	25+	複雜推理、長文件總結
Gemma 4 31B (int4)	Mac Studio M4 Ultra	45+	代理任務、深度研究

flowchart TB subgraph "開發者" A[開發者撰寫程式碼
使用 ML Kit / LiteRT-LM / MLX] end subgraph "Google 生態系" B[Hugging Face
模型下載 + 權重] C[AICore
Android 系統內建推論引擎] D[LiteRT-LM
跨平台輕量運行時] end subgraph "行動裝置硬體層" E1[Apple Neural Engine
M4 / A18 Pro] E2[Qualcomm Hexagon NPU
Snapdragon 8 Elite] E3[MediaTek APU
Dimensity 9400] E4[Samsung NPU
Exynos 2600] end subgraph "端點使用者" F[使用者獲得
零延遲、離線、私密的 AI 體驗] end A --> B B --> C & D C --> E1 & E2 & E3 & E4 D --> E1 E1 & E2 & E3 & E4 --> F style A fill:#e3f2fd style B fill:#fff3e0 style C fill:#e8f5e8 style D fill:#fce4ec style F fill:#d1c4e9

量化技術與實際部署的效能權衡

Gemma 4 能在手機上運行，關鍵在於先進的量化技術。理解量化對效能的影響，是 ML 工程師做出正確部署決策的基礎。

從 FP16 到 INT4：記憶體與效能的交換

一般情況下，Gemma 4 E2B 的 FP16 權重約 4 GB（約為現代手機可用記憶體的一半），這對其他應用而言太大了。Google 的解決方案使用三層量化策略：

權重量化：將權重從 FP16 壓縮為 INT4，模型大小降至約 1 GB
KV Cache 量化：推論時產生的 KV Cache 量化為 INT8
激活值量化：根據層級動態決定激活值的量化精度

不同量化方案的比較

量化方案	記憶體使用	Token/s（M4 Max）	MMLU-Pro 分數	分數損失
FP16（基準）	~4.0 GB	28	43.4%	基線
INT8	~2.1 GB	52	42.8%	-0.6%
INT4 (GPTQ)	~1.2 GB	78	42.1%	-1.3%
INT4 (AWQ)	~1.2 GB	80	42.5%	-0.9%
LiteRT 混合精度	~1.5 GB	72	43.1%	-0.3%

Google 的 LiteRT 混合精度方案在記憶體使用與精度損失之間取得了最佳平衡：僅損失 0.3% 的表現，同時將模型壓縮至 1.5 GB。這使得 Gemma 4 E2B 可以在 iPhone 17 Pro 和大部分中高階 Android 手機上流暢運行。

開源策略的長期影響：Gemma 能否成為 AI 界的 Android？

Gemma 4 採用 Apache 2.0 授權是與 Gemma 前代最根本的差異。Apache 2.0 授權明確允許：

商業使用，無需付費或回報
修改與分發衍生作品
專利授權（涵蓋 Google 持有的相關專利）

開源 LLM 授權比較

模型	授權類型	商用限制	專利授權	可修改	權重可用
Gemma 4	Apache 2.0	無	有	是	是
Llama 3	Llama Community License	月活>7億需授權	有限	是	是
Mistral AI	Apache 2.0	無	無	是	是
Qwen 2.5	Tongyi Qianwen License	無限制	部分	是	是
GPT-4o (OpenAI)	封閉	-	-	否	否
Claude (Anthropic)	封閉	-	-	否	否

生態系布局的三個層次

Google 的生態系布局非常具有策略性，分為三個層次：

底層——模型層：Gemma 4 以 Apache 2.0 完全開放，吸引全球開發者使用與貢獻
中層——工具層：AICore、LiteRT-LM、ML Kit GenAI、MediaPipe SDK 等工具鏈降低部署門檻
上層——硬體層：與高通、聯發科、三星深度合作，將 Gemma 4 的推論優化整合進 NPU/APU 設計

這個布局與 Android 當年的成功路徑幾乎一致：開放底層、提供開發者工具、與硬體廠商合作建立標準。到 2027 年，支援高效能本地 AI 推理預估將成為中高階智慧型手機的標配，滲透率預計從 2026 年的 15% 提升至 65% 以上。

flowchart TD subgraph "上層：硬體生態" H1[Qualcomm Snapdragon
NPU 整合] H2[MediaTek Dimensity
APU 優化] H3[Samsung Exynos
NPU 協同設計] H4[Apple Silicon
MLX 支援] end subgraph "中層：開發工具" T1[AICore
Android 系統內建] T2[LiteRT-LM
跨平台 CLI/Python] T3[ML Kit GenAI
生產級 API] T4[MediaPipe SDK
iOS 橋接] end subgraph "底層：開放模型" M1[Gemma 4 E2B
2B 手機端] M2[Gemma 4 E4B
4B 平板] M3[Gemma 4 26B MoE
個人電腦] M4[Gemma 4 31B
工作站/伺服器] end M1 & M2 & M3 & M4 --> T1 & T2 & T3 & T4 T1 & T2 & T3 & T4 --> H1 & H2 & H3 & H4 H1 & H2 & H3 & H4 --> E[邊緣 AI 無所不在
2027 年 65% 手機支援] style M1 fill:#e1f5fe style M2 fill:#e1f5fe style M3 fill:#e1f5fe style M4 fill:#e1f5fe style T1 fill:#fff3e0 style T2 fill:#fff3e0 style T3 fill:#fff3e0 style T4 fill:#fff3e0 style H1 fill:#e8f5e8 style H2 fill:#e8f5e8 style H3 fill:#e8f5e8 style H4 fill:#e8f5e8 style E fill:#d1c4e9

已知限制與務實評估

雖然 Gemma 4 的發布令人振奮，但作為負責任的技術分析，必須指出其已知限制：

小型模型的邏輯推理缺陷

多家媒體在實測中發現，Gemma 4 的小型模型（E2B、E4B）在需要嚴格邏輯推理的任務上表現不如預期。一個經典的實測是 “strawberry test”——問模型 “strawberry 有幾個 r”（答案是 3 個），E2B 多次給出錯誤答案。這不是安全問題，而是小型模型在需要計數與符號操作（Symbolic Reasoning）的任務上的固有弱點。

iOS 支援仍在開發者預覽階段

Android 端的 AICore 已經完整支援，但 iOS 端的部署仍需透過 MediaPipe LLM Inference SDK，尚未達到生產成熟度。對於需要在 iOS 上部署 Gemma 4 的團隊，建議先以 MLX 作為過渡方案。

行動端長上下文的實際應用限制

雖然規格上支援 128K 上下文，但實際使用長上下文時，KV Cache 大小可能超過可用記憶體。128K tokens 的 INT8 KV Cache 約需 512 MB。建議在手機端使用時將有效上下文限制在 32K-64K。

FAQ 常見問題

Q1: Gemma 4 的 Apache 2.0 授權是否允許我在商業產品中使用？

Q2: Gemma 4 可以在完全不聯網的手機上運行嗎？

可以。透過 AICore 或 LiteRT-LM，模型權重直接儲存在裝置上，推論完全在本地執行，不需要任何網路連線。這是 Google 推動離線 AI 的核心賣點。

Q3: E2B 與 E4B 的實際記憶體需求為何？

以 4-bit 量化為例：E2B 約需 1.5-2 GB RAM，E4B 約需 3-4 GB RAM。再加上 KV Cache 與激活值的開銷，建議裝置至少有 6 GB（E2B）或 8 GB（E4B）的可用記憶體。

Q4: Gemma 4 支援中文嗎？

深度支援。Gemma 4 使用 140+ 語言的訓練語料，中文表現顯著優於 Gemma 3。繁體中文的翻譯、摘要、問答等任務表現出色。在 C-Eval 與 CMMLU 等中文基準測試中，26B MoE 版的分數接近同等參數規模的中文特化模型。

Q5: 26B MoE 與 31B Dense 版本該如何選擇？

如果裝置記憶體足夠（16GB+），31B Dense 在各項基準測試上表現最佳。26B MoE 則在記憶體效率（僅 3.8B 活躍參數）與表達能力間取得最佳平衡，適合在個人電腦或高階手機上運行。對於多數開發者，建議以 26B MoE 為目標版本。

結論：開源 LLM 的分水嶺時刻

Google DeepMind 的 Gemma 4 不只是一次模型發布——它是開源 LLM 生態系的分水嶺。當全球頂尖 AI 研究機構將其最新模型以 Apache 2.0 完全開放，並提供從手機到資料中心的完整部署管線時，這件事的戰略意義遠遠超越了技術參數的競爭。

對於 ML 工程師與行動開發者，我的建議是：

立即試用 E2B 與 26B MoE 版本。Hugging Face 上已經可以直接下載，LiteRT-LM 的安裝只需一行 pip install。
評估你的行動應用中哪些功能可以離線化。即時翻譯、文件摘要、郵件草稿等功能可以完全在本地完成，顯著提升用戶體驗與隱私保護。
關注 Google 生態系的發展。如果 Gemma 4 的開源策略成功，它將成為 Android 生態系中 AI 功能的標準基礎設施。

我們正站在一個新時代的起點——AI 不再是需要「連線請求」的雲端服務，而是每一台裝置內建的基礎能力。Gemma 4 讓這個願景離現實更近了一步。

Google Gemma 4 完全開源深度解析：Apache 2.0 授權、手機端部署架構與邊緣 AI 生態系戰略

為什麼 Google 要在此時將 Gemma 4 完全開源？