Phi-4

Microsoft Research · Dense · Dezember 2024 – Mai 2025 · Lizenz: MIT

phi4 Multimodal Reasoning / CoT Function Calling MIT-Lizenz

Architektur & Parameter

Dense Phi-4-mini 3.8B

Parameter3,8 B

Layer32

Kontextfenster128k Token

Vokabular200.064

AttentionGQA

Function CallingJa

VeröffentlichtFebruar 2025

LizenzMIT

HuggingFacemicrosoft/Phi-4-mini-instruct

Dense Phi-4-mini-reasoning 3.8B

Parameter3,8 B

Layer32

Kontextfenster128k Token

Vokabular200.064

BesonderheitChain-of-Thought Fine-Tune

BasisPhi-4-mini

VeröffentlichtMai 2025

LizenzMIT

HuggingFacemicrosoft/Phi-4-mini-reasoning

Dense Phi-4-multimodal 5.6B

Parameter gesamt5,6 B

Kontextfenster128k Token

ModalitätenText · Bild · Audio

Speech WER6,14 % (OpenASR #1)

Vision-EncoderSigLIP-basiert

Audio-EncoderWhisper-basiert

VeröffentlichtFebruar 2025

LizenzMIT

HuggingFacemicrosoft/Phi-4-multimodal-instruct

Dense Phi-4 14B

Parameter14 B

Layer40

Hidden Dim5.120

Attention Heads40 (GQA: 10 KV)

Kontextfenster16k Token

Vokabular100.352

MMLU84,8 %

HumanEval82,6 %

VeröffentlichtDezember 2024

LizenzMIT

HuggingFacemicrosoft/phi-4

Dense Phi-4-reasoning 14B

Parameter14 B

Layer40

Kontextfenster16k Token

BesonderheitExtended CoT Thinking

BasisPhi-4 14B

TrainingSFT + RLVR auf Reasoning-Daten

VeröffentlichtMai 2025

LizenzMIT

HuggingFacemicrosoft/Phi-4-reasoning

VRAM-Kompatibilität (Q4-Quantisierung)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. Intel Arc Pro B60	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Phi-4-mini (3.8B)	Dense	~2,5 GB	PerfektLäuft problemlos; ~3,5 GB Puffer für langen Kontext	Ultra-komfortabelMassig Platz für 128k-Kontext und parallele Anfragen	Ultra-komfortabelIdeal für Agenten mit langem Kontext	Ultra-leichtMehrere Instanzen gleichzeitig möglich	Sehr gut~15–20 Tok/Sek · Modell passt komplett in RAM
Phi-4-mini-reasoning (3.8B)	Dense	~2,5 GB	PerfektAusreichend Puffer für lange CoT-Ausgaben	Ultra-komfortabelViel Platz für Reasoning-Ketten	Ultra-komfortabelIdeal für Reasoning-Aufgaben	Ultra-leichtMehrere Instanzen gleichzeitig möglich	Sehr gut~15–20 Tok/Sek · CoT-Ausgaben vollständig im RAM
Phi-4-multimodal (5.6B)	Dense	~3,5–4,5 GB	GrenzbereichNur Text passt; Vision- und Audio-Encoder sprengen VRAM	KomfortabelText + Bild gut nutzbar; Audio mit leichtem Puffer	Sehr komfortabelAlle Modalitäten problemlos; viel Kontext-Puffer	Sehr komfortabelAlle Modalitäten, parallele Anfragen möglich	Akzeptabel~8–10 Tok/Sek · Audio-Encoder lastet RAM stark aus
Phi-4 (14B)	Dense	~8–9 GB	Nicht möglichVRAM zu klein; Modell passt nicht	GrenzbereichPasst knapp; kaum Puffer für langen Kontext	Sweet-SpotOptimale Balance aus Leistung und Ressourcen	Sehr komfortabelViel Puffer für Kontext und parallele Anfragen	Träge / Limit~4–6 Tok/Sek · Belegt fast gesamten RAM
Phi-4-reasoning (14B)	Dense	~8–9 GB	Nicht möglichVRAM zu klein; Modell passt nicht	GrenzbereichPasst knapp; CoT-Ausgaben können Kontext-VRAM aufbrauchen	Sweet-SpotEmpfohlen: genug Puffer für lange Reasoning-Ketten	Sehr komfortabelSelbst sehr lange CoT-Ketten problemlos	Träge / Limit~4–6 Tok/Sek · Lange CoT-Ausgaben sehr langsam

Fähigkeiten & Modalitäten

Modell	Text	Bild	Audio	Reasoning	Function Calling	Code	Kontext	Sprachen
Phi-4-mini	✓	✗	✗	~	✓	✓	128k	23+
Phi-4-mini-reasoning	✓	✗	✗	✓	~	✓	128k	23+
Phi-4-multimodal	✓	✓	✓	~	✗	✓	128k	23+
Phi-4	✓	✗	✗	~	✓	✓	16k	23+
Phi-4-reasoning	✓	✗	✗	✓	~	✓	16k	23+

Quantisierungen

Modell	Format	Variante	Gewichte	Hinweis
Phi-4-mini 3.8B	GGUF	Q4_K_M	~2,5 GB	Empfehlung für Consumer-GPUs
Phi-4-mini 3.8B	GGUF	Q8_0	~3,8 GB	Nahezu verlustfrei
Phi-4-mini 3.8B	BF16	—	~7,6 GB	Volles Gewicht
Phi-4-multimodal 5.6B	GGUF	Q4_K_M	~3,5 GB	+ Vision-/Audio-Encoder im VRAM
Phi-4-multimodal 5.6B	GGUF	Q8_0	~5,6 GB
Phi-4-multimodal 5.6B	BF16	—	~11,2 GB	Volles Gewicht (ohne Encoder-Overhead)
Phi-4 14B	GGUF	Q2_K	~5 GB	Kleinstes nutzbares GGUF; Qualitätsverlust spürbar
Phi-4 14B	GGUF	Q4_K_M	~8–9 GB	Empfehlung für 16-GB-GPUs
Phi-4 14B	GGUF	Q8_0	~14 GB	Nahezu verlustfrei; 16-GB-GPU Grenzbereich
Phi-4 14B	BF16	—	~28 GB	Volles Gewicht; braucht 2× 16-GB-GPUs
Phi-4-reasoning 14B	GGUF	Q4_K_M	~8–9 GB	Empfehlung; CoT-Ausgaben brauchen Kontext-VRAM
Phi-4-reasoning 14B	GGUF	Q8_0	~14 GB
Phi-4-reasoning 14B	BF16	—	~28 GB	Volles Gewicht

Deployment

Ollama Einfachste Option

Phi-4-miniollama run phi4-mini

Phi-4 14Bollama run phi4

LM Studio GUI-Support

Alle VariantenGGUF direkt aus HuggingFace

MultimodalPhi-4-multimodal erfordert aktuelles LM Studio

llama.cpp Direkte GGUF-Nutzung

KV-Quantisierung--cache-type-k q4_0

128k Kontext (mini)--ctx-size 131072

vLLM Phi-4-mini (16 GB GPU)

Befehlvllm serve microsoft/Phi-4-mini-instruct

Tool Calling--enable-auto-tool-choice

vLLM Phi-4 14B (24 GB GPU)

Befehlvllm serve microsoft/phi-4

Kontext--max-model-len 16384

fp8 KV-Cache--kv-cache-dtype fp8 (−50 %)

transformers Multimodal-Nutzung

Modell ladenAutoModelForCausalLM.from_pretrained(...)

ProcessorAutoProcessor.from_pretrained(...)

Audio-Inputwav, 16kHz Mono empfohlen

Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem 128k-Kontext (Phi-4-mini) steigt der Bedarf erheblich.
· Phi-4-multimodal: Vision- und Audio-Encoder belegen zusätzlich ~0,5–1,5 GB VRAM — bei 6-GB-GPUs ist Multimodalität daher kaum nutzbar.
· Phi-4 und Phi-4-reasoning teilen dieselbe Architektur — VRAM-Bedarf ist identisch. Der Unterschied liegt ausschließlich im Fine-Tuning.
· Phi-4-reasoning gibt vor Antworten intern eine <think>…</think>-Kette aus, die Token verbraucht und Latenzen erhöht. Bei 16k-Kontext kann diese bei komplexen Aufgaben den Großteil des Kontexts belegen.
· Phi-4-mini hat trotz nur 3,8B Parameter ein sehr großes Vokabular (200.064 Token), das Embedding-Gewichte kostet; der effektive Rechenvorteil ist daher etwas kleiner als die Parameterzahl suggeriert.
· Phi-4-mini-reasoning ist für kompakte Reasoning-Aufgaben (Mathe, Logik, STEM) optimiert und schlägt deutlich größere Modelle auf speziellen Benchmarks.
· Alle Phi-4-Modelle stehen unter der MIT-Lizenz — kommerzielle Nutzung ohne Einschränkungen.
· Ollama-Support: phi4-mini und phi4 sind direkt über den Ollama-Modell-Hub verfügbar; Multimodal und Reasoning-Varianten erfordern manuelle GGUF-Integration.