| Phi-4-mini (3.8B) |
Dense |
~2,5 GB |
PerfektLäuft problemlos; ~3,5 GB Puffer für langen Kontext |
Ultra-komfortabelMassig Platz für 128k-Kontext und parallele Anfragen |
Ultra-komfortabelIdeal für Agenten mit langem Kontext |
Ultra-leichtMehrere Instanzen gleichzeitig möglich |
Sehr gut~15–20 Tok/Sek · Modell passt komplett in RAM |
| Phi-4-mini-reasoning (3.8B) |
Dense |
~2,5 GB |
PerfektAusreichend Puffer für lange CoT-Ausgaben |
Ultra-komfortabelViel Platz für Reasoning-Ketten |
Ultra-komfortabelIdeal für Reasoning-Aufgaben |
Ultra-leichtMehrere Instanzen gleichzeitig möglich |
Sehr gut~15–20 Tok/Sek · CoT-Ausgaben vollständig im RAM |
| Phi-4-multimodal (5.6B) |
Dense |
~3,5–4,5 GB |
GrenzbereichNur Text passt; Vision- und Audio-Encoder sprengen VRAM |
KomfortabelText + Bild gut nutzbar; Audio mit leichtem Puffer |
Sehr komfortabelAlle Modalitäten problemlos; viel Kontext-Puffer |
Sehr komfortabelAlle Modalitäten, parallele Anfragen möglich |
Akzeptabel~8–10 Tok/Sek · Audio-Encoder lastet RAM stark aus |
| Phi-4 (14B) |
Dense |
~8–9 GB |
Nicht möglichVRAM zu klein; Modell passt nicht |
GrenzbereichPasst knapp; kaum Puffer für langen Kontext |
Sweet-SpotOptimale Balance aus Leistung und Ressourcen |
Sehr komfortabelViel Puffer für Kontext und parallele Anfragen |
Träge / Limit~4–6 Tok/Sek · Belegt fast gesamten RAM |
| Phi-4-reasoning (14B) |
Dense |
~8–9 GB |
Nicht möglichVRAM zu klein; Modell passt nicht |
GrenzbereichPasst knapp; CoT-Ausgaben können Kontext-VRAM aufbrauchen |
Sweet-SpotEmpfohlen: genug Puffer für lange Reasoning-Ketten |
Sehr komfortabelSelbst sehr lange CoT-Ketten problemlos |
Träge / Limit~4–6 Tok/Sek · Lange CoT-Ausgaben sehr langsam |