← VRAM Calculator

Gemma 4

Google DeepMind · Trainings-Cutoff Januar 2025 · 140+ Sprachen · 262k Vokabular

gemma4 Multimodal Thinking Mode Function Calling Hybrid Attention

Architektur & Parameter

Dense Gemma 4 E2B
Effektive Parameter2,3 B
Gesamt (+ Embeddings)5,1 B
Layer35
Kontextfenster128k Token
Sliding Window512 Token
Vokabular262.000
ModalitätenText · Bild · Audio
Vision-Encoder~150 M
Audio-Encoder~300 M
BesonderheitPLE (Per-Layer Emb.)
Dense Gemma 4 E4B
Effektive Parameter4,5 B
Gesamt (+ Embeddings)8 B
Layer42
Kontextfenster128k Token
Sliding Window512 Token
Vokabular262.000
ModalitätenText · Bild · Audio
Vision-Encoder~150 M
Audio-Encoder~300 M
BesonderheitPLE (Per-Layer Emb.)
MoE 8/128 Gemma 4 26B A4B
Aktive Parameter3,8 B
Parameter gesamt25,2 B
Experten8 aktiv / 128 + 1 shared
Layer30
Kontextfenster256k Token
Sliding Window1.024 Token
Vokabular262.000
ModalitätenText · Bild
Vision-Encoder~550 M
Dense Gemma 4 31B
Parameter gesamt30,7 B
Layer60
Kontextfenster256k Token
Sliding Window1.024 Token
Vokabular262.000
ModalitätenText · Bild
Vision-Encoder~550 M

VRAM-Kompatibilität (Q4-Quantisierung)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. Intel Arc Pro B60 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Gemma 4 E2B (5,1 B) Dense ~3–4 GB PerfektLäuft voll im VRAM, ~2 GB Puffer für Basis-Kontext Ultra-komfortabelViel Platz für langen Kontext und Bilder Sehr komfortabelMassig Reserven für parallele Anfragen Ultra-LeichtMassig Platz für parallel laufende Agenten Gut nutzbar~12–15 Tok/Sek · Modell passt komplett in RAM, ~12 GB frei
Gemma 4 E4B (8 B) Dense ~5–6 GB GrenzbereichPasst gerade so; kaum Platz für Bild-/Audio-Kontext KomfortabelAusreichend Puffer für Kontext und Bilder Sehr komfortabelRiesiger Kontext-Puffer frei Sehr komfortabelRiesiger Kontext-Puffer frei Akzeptabel~8–10 Tok/Sek · Belegt fast halben RAM; träge bei Bildern
Gemma 4 12B (Unified) Dense ~7–9 GB Nicht möglichVRAM läuft über; Absturz oder extremer Einbruch GrenzbereichPasst knapp; kaum Puffer für Multimodalität Sweet-SpotBeste Balance aus Intelligenz, Audio & Kontext Sweet-SpotBeste Balance aus Intelligenz, Audio & Kontext Sehr träge / Limit~4–6 Tok/Sek · Belegt inkl. System fast den gesamten RAM
Gemma 4 26B A4B (MoE) MoE 8/128 ~14–16 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM zu klein GrenzbereichPasst knapp; kaum Puffer für Chat-Verlauf Sehr gutHohe Logik-Intelligenz, genug Platz für Chat-Verlauf Nicht möglichSprengt 16 GB RAM komplett → System fängt an zu swappen
Gemma 4 31B (Dense) Dense ~18–21 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM zu klein Nicht möglichVRAM reicht bei Weitem nicht aus Knapp (Limit)Modell passt, aber bei langen Texten/Bildern droht Überlauf Nicht möglichVRAM/RAM reicht bei Weitem nicht aus

Modalitäten & Fähigkeiten

Modell Text Bild Audio Video Thinking Function Calling Kontext Sprachen
Gemma 4 E2B ~ 128k 35+
Gemma 4 E4B ~ 128k 35+
Gemma 4 12B ~ 128k 35+
Gemma 4 26B A4B ~ 256k 35+
Gemma 4 31B ~ 256k 35+

Quantisierungen

Modell Format Variante Gewichte Hinweis
26B-A4B GGUF · Unsloth Dynamic UD-Q2_K_XL 10,5 GB Kleinstes nutzbares GGUF
26B-A4B GGUF · Unsloth Dynamic UD-Q3_K_M 12,5 GB
26B-A4B GGUF · Unsloth Dynamic UD-Q4_K_M 16,9 GB Empfohlen für 24-GB-GPUs
26B-A4B GGUF · Unsloth Dynamic UD-Q5_K_M 21,2 GB
26B-A4B GGUF Q8_0 26,9 GB
26B-A4B BF16 50,5 GB Volles Gewicht
E2B QAT W4A16 (offiziell) -qat-w4a16-ct 7,3 GB −26 % ggü. BF16
E4B QAT W4A16 (offiziell) -qat-w4a16-ct 9,8 GB −36 % ggü. BF16
12B QAT W4A16 (offiziell) -qat-w4a16-ct 8,3 GB −64 % ggü. BF16
31B QAT W4A16 (offiziell) -qat-w4a16-ct 19,8 GB −66 % ggü. BF16
E4B Mobile QAT (int2/4/8) -mobile 3,7 GB 4,1× kleiner als BF16 · +1,5× Durchsatz

Kontextabhängiger VRAM-Bedarf (Gemma 4 31B, Q4)

Kontextlänge KV-Cache/Token (BF16) KV-Cache/Token (Q4) Gesamt VRAM ca.
4 K Token ~0,85 MB ~0,038 MB ~20 GB
64 K Token ~0,85 MB ~0,038 MB ~25 GB
256 K Token ~0,85 MB ~0,038 MB ~40 GB

Deployment

Ollama Einfachste Option
26B-A4Bollama run gemma4:26b
31Bollama run gemma4:31b
LM Studio Day-0-Support
Alle 4 VariantenGUI-gestützt, GGUF direkt wählbar
llama.cpp KV-Optimierung
KV-Quantisierung--cache-type-k q4_0 --cache-type-v q4_0
31B Tipp-np 1 ← spart ~11 GB VRAM
vLLM Single-GPU (E4B)
Befehlvllm serve google/gemma-4-E4B-it --max-model-len 131072
vLLM Multi-GPU (31B, 2× A100/H100)
Tensor Parallel--tensor-parallel-size 2
GPU-Auslastung--gpu-memory-utilization 0.90
Kontextlimit--max-model-len 32768
vLLM Tool Use & Thinking
Tool Calling--enable-auto-tool-choice --tool-call-parser gemma4
Thinking Mode--reasoning-parser gemma4
Chat-Template--chat-template ...gemma4.jinja
vLLM KV-Cache & Vision
fp8 KV-Cache--kv-cache-dtype fp8 (−50 %)
Vision-Tokens70 / 140 / 280* / 560 / 1120
Vision-Flag--mm-processor-kwargs '{"max_soft_tokens":560}'
Bild-Limit--limit-mm-per-prompt '{"image":4}'
vLLM Speculative Decoding
E2B / E4B2–4 Spec-Tokens
12B / 26B-A4B / 31B4–8 Spec-Tokens
Flag--speculative-config '{"model":"...-assistant","num_speculative_tokens":4}'
Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem Kontextfenster steigt der Bedarf deutlich (bis zu +50 %).
· E2B und E4B nutzen Per-Layer Embeddings (PLE) — ein Großteil der Parameter steckt in Embeddings; die effektive Rechenlast ist wesentlich kleiner als die Gesamtparameter suggerieren.
· 26B A4B: MoE mit 1 geteiltem Experten + 8 gerouteten Experten pro Layer (de facto 9 FFN-Blöcke aktiv). GGUF-Metadaten zählen nur die 8 gerouteten; VRAM kann minimal unterschätzt werden.
· Video wird über einzelne Einzel-Frames unterstützt, kein nativer Video-Stream.
· Gemma 4 12B ist in der offiziellen Modellkarte (Stand Juni 2025) nicht enthalten; Spezifikationen können abweichen.
· Alle Modelle teilen dasselbe Vokabular (262k Token) und die Hybrid-Attention-Architektur (lokales Sliding-Window + globale Attention).
· KV-Cache der 31B ist 2–3× größer als bei vergleichbaren Modellen: ~0,85 MB/Token (BF16), ~0,038 MB/Token mit Q4-KV-Quantisierung.
· QAT W4A16-Checkpoints sind offizielle Google-Quantisierungen — Qualitätsverlust geringer als bei nachträglicher GGUF-Quantisierung.
· Vision-Token-Budget (Standard: 280 Tokens/Bild): Für OCR und Texterkennung empfehlen sich 560–1120 Tokens pro Bild.
· vLLM unterstützt neben NVIDIA CUDA auch AMD ROCm (MI300X/MI325X/MI350X/MI355X), Google Cloud TPUs und Intel Xeon 6 CPUs.
· Lizenz: Apache 2.0 — keine proprietären Nutzungsbeschränkungen.