← VRAM Calculator

Phi-4

Microsoft Research · Dense · Dezember 2024 – Mai 2025 · Lizenz: MIT

phi4 Multimodal Reasoning / CoT Function Calling MIT-Lizenz

Architektur & Parameter

Dense Phi-4-mini 3.8B
Parameter3,8 B
Layer32
Kontextfenster128k Token
Vokabular200.064
AttentionGQA
Function CallingJa
VeröffentlichtFebruar 2025
LizenzMIT
HuggingFacemicrosoft/Phi-4-mini-instruct
Dense Phi-4-mini-reasoning 3.8B
Parameter3,8 B
Layer32
Kontextfenster128k Token
Vokabular200.064
BesonderheitChain-of-Thought Fine-Tune
BasisPhi-4-mini
VeröffentlichtMai 2025
LizenzMIT
HuggingFacemicrosoft/Phi-4-mini-reasoning
Dense Phi-4-multimodal 5.6B
Parameter gesamt5,6 B
Kontextfenster128k Token
ModalitätenText · Bild · Audio
Speech WER6,14 % (OpenASR #1)
Vision-EncoderSigLIP-basiert
Audio-EncoderWhisper-basiert
VeröffentlichtFebruar 2025
LizenzMIT
HuggingFacemicrosoft/Phi-4-multimodal-instruct
Dense Phi-4 14B
Parameter14 B
Layer40
Hidden Dim5.120
Attention Heads40 (GQA: 10 KV)
Kontextfenster16k Token
Vokabular100.352
MMLU84,8 %
HumanEval82,6 %
VeröffentlichtDezember 2024
LizenzMIT
HuggingFacemicrosoft/phi-4
Dense Phi-4-reasoning 14B
Parameter14 B
Layer40
Kontextfenster16k Token
BesonderheitExtended CoT Thinking
BasisPhi-4 14B
TrainingSFT + RLVR auf Reasoning-Daten
VeröffentlichtMai 2025
LizenzMIT
HuggingFacemicrosoft/Phi-4-reasoning

VRAM-Kompatibilität (Q4-Quantisierung)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. Intel Arc Pro B60 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Phi-4-mini (3.8B) Dense ~2,5 GB PerfektLäuft problemlos; ~3,5 GB Puffer für langen Kontext Ultra-komfortabelMassig Platz für 128k-Kontext und parallele Anfragen Ultra-komfortabelIdeal für Agenten mit langem Kontext Ultra-leichtMehrere Instanzen gleichzeitig möglich Sehr gut~15–20 Tok/Sek · Modell passt komplett in RAM
Phi-4-mini-reasoning (3.8B) Dense ~2,5 GB PerfektAusreichend Puffer für lange CoT-Ausgaben Ultra-komfortabelViel Platz für Reasoning-Ketten Ultra-komfortabelIdeal für Reasoning-Aufgaben Ultra-leichtMehrere Instanzen gleichzeitig möglich Sehr gut~15–20 Tok/Sek · CoT-Ausgaben vollständig im RAM
Phi-4-multimodal (5.6B) Dense ~3,5–4,5 GB GrenzbereichNur Text passt; Vision- und Audio-Encoder sprengen VRAM KomfortabelText + Bild gut nutzbar; Audio mit leichtem Puffer Sehr komfortabelAlle Modalitäten problemlos; viel Kontext-Puffer Sehr komfortabelAlle Modalitäten, parallele Anfragen möglich Akzeptabel~8–10 Tok/Sek · Audio-Encoder lastet RAM stark aus
Phi-4 (14B) Dense ~8–9 GB Nicht möglichVRAM zu klein; Modell passt nicht GrenzbereichPasst knapp; kaum Puffer für langen Kontext Sweet-SpotOptimale Balance aus Leistung und Ressourcen Sehr komfortabelViel Puffer für Kontext und parallele Anfragen Träge / Limit~4–6 Tok/Sek · Belegt fast gesamten RAM
Phi-4-reasoning (14B) Dense ~8–9 GB Nicht möglichVRAM zu klein; Modell passt nicht GrenzbereichPasst knapp; CoT-Ausgaben können Kontext-VRAM aufbrauchen Sweet-SpotEmpfohlen: genug Puffer für lange Reasoning-Ketten Sehr komfortabelSelbst sehr lange CoT-Ketten problemlos Träge / Limit~4–6 Tok/Sek · Lange CoT-Ausgaben sehr langsam

Fähigkeiten & Modalitäten

Modell Text Bild Audio Reasoning Function Calling Code Kontext Sprachen
Phi-4-mini ~ 128k 23+
Phi-4-mini-reasoning ~ 128k 23+
Phi-4-multimodal ~ 128k 23+
Phi-4 ~ 16k 23+
Phi-4-reasoning ~ 16k 23+

Quantisierungen

Modell Format Variante Gewichte Hinweis
Phi-4-mini 3.8B GGUF Q4_K_M ~2,5 GB Empfehlung für Consumer-GPUs
Phi-4-mini 3.8B GGUF Q8_0 ~3,8 GB Nahezu verlustfrei
Phi-4-mini 3.8B BF16 ~7,6 GB Volles Gewicht
Phi-4-multimodal 5.6B GGUF Q4_K_M ~3,5 GB + Vision-/Audio-Encoder im VRAM
Phi-4-multimodal 5.6B GGUF Q8_0 ~5,6 GB
Phi-4-multimodal 5.6B BF16 ~11,2 GB Volles Gewicht (ohne Encoder-Overhead)
Phi-4 14B GGUF Q2_K ~5 GB Kleinstes nutzbares GGUF; Qualitätsverlust spürbar
Phi-4 14B GGUF Q4_K_M ~8–9 GB Empfehlung für 16-GB-GPUs
Phi-4 14B GGUF Q8_0 ~14 GB Nahezu verlustfrei; 16-GB-GPU Grenzbereich
Phi-4 14B BF16 ~28 GB Volles Gewicht; braucht 2× 16-GB-GPUs
Phi-4-reasoning 14B GGUF Q4_K_M ~8–9 GB Empfehlung; CoT-Ausgaben brauchen Kontext-VRAM
Phi-4-reasoning 14B GGUF Q8_0 ~14 GB
Phi-4-reasoning 14B BF16 ~28 GB Volles Gewicht

Deployment

Ollama Einfachste Option
Phi-4-miniollama run phi4-mini
Phi-4 14Bollama run phi4
LM Studio GUI-Support
Alle VariantenGGUF direkt aus HuggingFace
MultimodalPhi-4-multimodal erfordert aktuelles LM Studio
llama.cpp Direkte GGUF-Nutzung
KV-Quantisierung--cache-type-k q4_0
128k Kontext (mini)--ctx-size 131072
vLLM Phi-4-mini (16 GB GPU)
Befehlvllm serve microsoft/Phi-4-mini-instruct
Tool Calling--enable-auto-tool-choice
vLLM Phi-4 14B (24 GB GPU)
Befehlvllm serve microsoft/phi-4
Kontext--max-model-len 16384
fp8 KV-Cache--kv-cache-dtype fp8 (−50 %)
transformers Multimodal-Nutzung
Modell ladenAutoModelForCausalLM.from_pretrained(...)
ProcessorAutoProcessor.from_pretrained(...)
Audio-Inputwav, 16kHz Mono empfohlen
Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem 128k-Kontext (Phi-4-mini) steigt der Bedarf erheblich.
· Phi-4-multimodal: Vision- und Audio-Encoder belegen zusätzlich ~0,5–1,5 GB VRAM — bei 6-GB-GPUs ist Multimodalität daher kaum nutzbar.
· Phi-4 und Phi-4-reasoning teilen dieselbe Architektur — VRAM-Bedarf ist identisch. Der Unterschied liegt ausschließlich im Fine-Tuning.
· Phi-4-reasoning gibt vor Antworten intern eine <think>…</think>-Kette aus, die Token verbraucht und Latenzen erhöht. Bei 16k-Kontext kann diese bei komplexen Aufgaben den Großteil des Kontexts belegen.
· Phi-4-mini hat trotz nur 3,8B Parameter ein sehr großes Vokabular (200.064 Token), das Embedding-Gewichte kostet; der effektive Rechenvorteil ist daher etwas kleiner als die Parameterzahl suggeriert.
· Phi-4-mini-reasoning ist für kompakte Reasoning-Aufgaben (Mathe, Logik, STEM) optimiert und schlägt deutlich größere Modelle auf speziellen Benchmarks.
· Alle Phi-4-Modelle stehen unter der MIT-Lizenz — kommerzielle Nutzung ohne Einschränkungen.
· Ollama-Support: phi4-mini und phi4 sind direkt über den Ollama-Modell-Hub verfügbar; Multimodal und Reasoning-Varianten erfordern manuelle GGUF-Integration.