Gemma 4

Google DeepMind · Trainings-Cutoff Januar 2025 · 140+ Sprachen · 262k Vokabular

gemma4 Multimodal Thinking Mode Function Calling Hybrid Attention

Architektur & Parameter

Dense Gemma 4 E2B

Effektive Parameter2,3 B

Gesamt (+ Embeddings)5,1 B

Layer35

Kontextfenster128k Token

Sliding Window512 Token

Vokabular262.000

ModalitätenText · Bild · Audio

Vision-Encoder~150 M

Audio-Encoder~300 M

BesonderheitPLE (Per-Layer Emb.)

Dense Gemma 4 E4B

Effektive Parameter4,5 B

Gesamt (+ Embeddings)8 B

Layer42

Kontextfenster128k Token

Sliding Window512 Token

Vokabular262.000

ModalitätenText · Bild · Audio

Vision-Encoder~150 M

Audio-Encoder~300 M

BesonderheitPLE (Per-Layer Emb.)

MoE 8/128 Gemma 4 26B A4B

Aktive Parameter3,8 B

Parameter gesamt25,2 B

Experten8 aktiv / 128 + 1 shared

Layer30

Kontextfenster256k Token

Sliding Window1.024 Token

Vokabular262.000

ModalitätenText · Bild

Vision-Encoder~550 M

Dense Gemma 4 31B

Parameter gesamt30,7 B

Layer60

Kontextfenster256k Token

Sliding Window1.024 Token

Vokabular262.000

ModalitätenText · Bild

Vision-Encoder~550 M

VRAM-Kompatibilität (Q4-Quantisierung)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. Intel Arc Pro B60	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Gemma 4 E2B (5,1 B)	Dense	~3–4 GB	PerfektLäuft voll im VRAM, ~2 GB Puffer für Basis-Kontext	Ultra-komfortabelViel Platz für langen Kontext und Bilder	Sehr komfortabelMassig Reserven für parallele Anfragen	Ultra-LeichtMassig Platz für parallel laufende Agenten	Gut nutzbar~12–15 Tok/Sek · Modell passt komplett in RAM, ~12 GB frei
Gemma 4 E4B (8 B)	Dense	~5–6 GB	GrenzbereichPasst gerade so; kaum Platz für Bild-/Audio-Kontext	KomfortabelAusreichend Puffer für Kontext und Bilder	Sehr komfortabelRiesiger Kontext-Puffer frei	Sehr komfortabelRiesiger Kontext-Puffer frei	Akzeptabel~8–10 Tok/Sek · Belegt fast halben RAM; träge bei Bildern
Gemma 4 12B (Unified)	Dense	~7–9 GB	Nicht möglichVRAM läuft über; Absturz oder extremer Einbruch	GrenzbereichPasst knapp; kaum Puffer für Multimodalität	Sweet-SpotBeste Balance aus Intelligenz, Audio & Kontext	Sweet-SpotBeste Balance aus Intelligenz, Audio & Kontext	Sehr träge / Limit~4–6 Tok/Sek · Belegt inkl. System fast den gesamten RAM
Gemma 4 26B A4B (MoE)	MoE 8/128	~14–16 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM zu klein	GrenzbereichPasst knapp; kaum Puffer für Chat-Verlauf	Sehr gutHohe Logik-Intelligenz, genug Platz für Chat-Verlauf	Nicht möglichSprengt 16 GB RAM komplett → System fängt an zu swappen
Gemma 4 31B (Dense)	Dense	~18–21 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM zu klein	Nicht möglichVRAM reicht bei Weitem nicht aus	Knapp (Limit)Modell passt, aber bei langen Texten/Bildern droht Überlauf	Nicht möglichVRAM/RAM reicht bei Weitem nicht aus

Modalitäten & Fähigkeiten

Modell	Text	Bild	Audio	Video	Thinking	Function Calling	Kontext	Sprachen
Gemma 4 E2B	✓	✓	✓	~	✓	✓	128k	35+
Gemma 4 E4B	✓	✓	✓	~	✓	✓	128k	35+
Gemma 4 12B	✓	✓	✓	~	✓	✓	128k	35+
Gemma 4 26B A4B	✓	✓	✗	~	✓	✓	256k	35+
Gemma 4 31B	✓	✓	✗	~	✓	✓	256k	35+

Quantisierungen

Modell	Format	Variante	Gewichte	Hinweis
26B-A4B	GGUF · Unsloth Dynamic	UD-Q2_K_XL	10,5 GB	Kleinstes nutzbares GGUF
26B-A4B	GGUF · Unsloth Dynamic	UD-Q3_K_M	12,5 GB
26B-A4B	GGUF · Unsloth Dynamic	UD-Q4_K_M	16,9 GB	Empfohlen für 24-GB-GPUs
26B-A4B	GGUF · Unsloth Dynamic	UD-Q5_K_M	21,2 GB
26B-A4B	GGUF	Q8_0	26,9 GB
26B-A4B	BF16	—	50,5 GB	Volles Gewicht
E2B	QAT W4A16 (offiziell)	-qat-w4a16-ct	7,3 GB	−26 % ggü. BF16
E4B	QAT W4A16 (offiziell)	-qat-w4a16-ct	9,8 GB	−36 % ggü. BF16
12B	QAT W4A16 (offiziell)	-qat-w4a16-ct	8,3 GB	−64 % ggü. BF16
31B	QAT W4A16 (offiziell)	-qat-w4a16-ct	19,8 GB	−66 % ggü. BF16
E4B	Mobile QAT (int2/4/8)	-mobile	3,7 GB	4,1× kleiner als BF16 · +1,5× Durchsatz

Kontextabhängiger VRAM-Bedarf (Gemma 4 31B, Q4)

Kontextlänge	KV-Cache/Token (BF16)	KV-Cache/Token (Q4)	Gesamt VRAM ca.
4 K Token	~0,85 MB	~0,038 MB	~20 GB
64 K Token	~0,85 MB	~0,038 MB	~25 GB
256 K Token	~0,85 MB	~0,038 MB	~40 GB

Deployment

Ollama Einfachste Option

26B-A4Bollama run gemma4:26b

31Bollama run gemma4:31b

LM Studio Day-0-Support

Alle 4 VariantenGUI-gestützt, GGUF direkt wählbar

llama.cpp KV-Optimierung

KV-Quantisierung--cache-type-k q4_0 --cache-type-v q4_0

31B Tipp-np 1 ← spart ~11 GB VRAM

vLLM Single-GPU (E4B)

Befehlvllm serve google/gemma-4-E4B-it --max-model-len 131072

vLLM Multi-GPU (31B, 2× A100/H100)

Tensor Parallel--tensor-parallel-size 2

GPU-Auslastung--gpu-memory-utilization 0.90

Kontextlimit--max-model-len 32768

vLLM Tool Use & Thinking

Tool Calling--enable-auto-tool-choice --tool-call-parser gemma4

Thinking Mode--reasoning-parser gemma4

Chat-Template--chat-template ...gemma4.jinja

vLLM KV-Cache & Vision

fp8 KV-Cache--kv-cache-dtype fp8 (−50 %)

Vision-Tokens70 / 140 / 280* / 560 / 1120

Vision-Flag--mm-processor-kwargs '{"max_soft_tokens":560}'

Bild-Limit--limit-mm-per-prompt '{"image":4}'

vLLM Speculative Decoding

E2B / E4B2–4 Spec-Tokens

12B / 26B-A4B / 31B4–8 Spec-Tokens

Flag--speculative-config '{"model":"...-assistant","num_speculative_tokens":4}'

Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem Kontextfenster steigt der Bedarf deutlich (bis zu +50 %).
· E2B und E4B nutzen Per-Layer Embeddings (PLE) — ein Großteil der Parameter steckt in Embeddings; die effektive Rechenlast ist wesentlich kleiner als die Gesamtparameter suggerieren.
· 26B A4B: MoE mit 1 geteiltem Experten + 8 gerouteten Experten pro Layer (de facto 9 FFN-Blöcke aktiv). GGUF-Metadaten zählen nur die 8 gerouteten; VRAM kann minimal unterschätzt werden.
· Video wird über einzelne Einzel-Frames unterstützt, kein nativer Video-Stream.
· Gemma 4 12B ist in der offiziellen Modellkarte (Stand Juni 2025) nicht enthalten; Spezifikationen können abweichen.
· Alle Modelle teilen dasselbe Vokabular (262k Token) und die Hybrid-Attention-Architektur (lokales Sliding-Window + globale Attention).
· KV-Cache der 31B ist 2–3× größer als bei vergleichbaren Modellen: ~0,85 MB/Token (BF16), ~0,038 MB/Token mit Q4-KV-Quantisierung.
· QAT W4A16-Checkpoints sind offizielle Google-Quantisierungen — Qualitätsverlust geringer als bei nachträglicher GGUF-Quantisierung.
· Vision-Token-Budget (Standard: 280 Tokens/Bild): Für OCR und Texterkennung empfehlen sich 560–1120 Tokens pro Bild.
· vLLM unterstützt neben NVIDIA CUDA auch AMD ROCm (MI300X/MI325X/MI350X/MI355X), Google Cloud TPUs und Intel Xeon 6 CPUs.
· Lizenz: Apache 2.0 — keine proprietären Nutzungsbeschränkungen.