Mistral AI · Dense & Mixture-of-Experts · seit September 2023 · 100+ Sprachen
| Modell | Typ | VRAM Q4 | 6 GB VRAMz. B. NVIDIA A2000 | 12 GB VRAMz. B. RTX 3060 Ti | 16 GB VRAMz. B. RTX 4060 Ti | 24 GB VRAMz. B. Intel Arc Pro B60 | CPU · 16 GB RAMz. B. Ryzen 7 (AM4) |
|---|---|---|---|---|---|---|---|
| Mistral 7B | Dense | ~4 GB | PerfektLäuft voll im VRAM, ~2 GB Puffer für Kontext | Sehr komfortabelMassig Platz für langen Kontext | Ultra-komfortabelViel Reserven für parallele Anfragen | Ultra-LeichtIdeal für produktive Nutzung, viele parallele Slots | Gut nutzbar~12–15 Tok/Sek · Modell passt komplett in RAM |
| Mistral Nemo 12B | Dense | ~8 GB | Nicht möglichVRAM zu klein; Modell überschreitet Limit | GrenzbereichPasst knapp; kaum Puffer für langen 128k-Kontext | KomfortabelAusreichend Puffer für normalen Kontext | Sehr komfortabelRiesiger KV-Cache-Puffer verfügbar | Akzeptabel~8–10 Tok/Sek · Belegt halben RAM; bei 128k-Kontext träge |
| Codestral 22B | Dense | ~12 GB | Nicht möglichVRAM viel zu klein | GrenzbereichPasst gerade so; kaum Puffer für langen Code-Kontext | Knapp (Limit)Modell passt, aber bei großen Dateien droht Überlauf | KomfortabelGuter Puffer für Code-Completion und FIM | Nicht möglichÜberschreitet verfügbaren RAM |
| Mixtral 8x7B (46,7 B) | MoE 2/8 | ~29 GB | Nicht möglichVRAM viel zu klein | Nicht möglichAlle 8 Experten brauchen gemeinsam ~29 GB | Nur Q2_K (~18 GB)Starker Qualitätsverlust; kaum praxistauglich | Q3_K_M (~23 GB)Passt knapp; minimaler Kontext-Puffer | Nicht möglichSprengt 16 GB RAM; System swappt massiv |
| Mixtral 8x22B (141 B) | MoE 2/8 | ~90 GB | Nicht möglichVRAM viel zu klein | Nicht möglichVRAM viel zu klein | Nicht möglichVRAM viel zu klein | Nicht möglichBenötigt mind. 4× 24 GB GPU | Nicht möglichSprengt jeden Consumer-RAM |
| Modell | Text | Code | FIM | Function Calling | Multilingual | Kontext | Lizenz |
|---|---|---|---|---|---|---|---|
| Mistral 7B | ✓ | ~ | ✗ | ~ | ~ | 8k | Apache 2.0 |
| Mistral Nemo 12B | ✓ | ✓ | ✗ | ✓ | ✓ | 128k | Apache 2.0 |
| Codestral 22B | ~ | ✓ | ✓ | ✗ | ~ | 32k | Non-Commercial |
| Mixtral 8x7B | ✓ | ✓ | ✗ | ✓ | ✓ | 32k | Apache 2.0 |
| Mixtral 8x22B | ✓ | ✓ | ✗ | ✓ | ✓ | 64k | Apache 2.0 |
| Modell | Format | Variante | VRAM | Hinweis |
|---|---|---|---|---|
| Mistral 7B | GGUF | Q4_K_M | ~4 GB | Empfohlen für 6-GB-GPUs |
| Mistral 7B | GGUF | Q8_0 | ~7 GB | |
| Mistral 7B | FP16 | — | ~14 GB | Volles Gewicht |
| Nemo 12B | GGUF | Q4_K_M | ~8 GB | Empfohlen für 12-GB-GPUs |
| Nemo 12B | FP8 (offiziell, QAT) | — | ~12 GB | Optimierte Qualität für NVIDIA Hopper (H100/H200) |
| Nemo 12B | FP16 | — | ~24 GB | Volles Gewicht |
| Mixtral 8x7B | GGUF | Q2_K | ~18 GB | Kleinstes nutzbares GGUF; starker Qualitätsverlust |
| Mixtral 8x7B | GGUF | Q3_K_M | ~23 GB | Empfohlen für 24-GB-GPU |
| Mixtral 8x7B | GGUF | Q4_K_M | ~29 GB | Standard-Qualitätsstufe; braucht 32-GB-GPU |
| Mixtral 8x7B | GGUF | Q5_K_M | ~35 GB | |
| Mixtral 8x7B | GGUF | Q6_K | ~41 GB | |
| Mixtral 8x7B | GGUF | Q8_0 | ~52 GB | |
| Mixtral 8x7B | FP16 | — | ~95 GB | Nur Multi-GPU |
| Mixtral 8x22B | GGUF | Q3_K_M | ~72 GB | 3× 24 GB GPU oder 64 GB Mac |
| Mixtral 8x22B | GGUF | Q4_K_M | ~90 GB | 96 GB Mac oder 4× 24 GB GPU |
| Mixtral 8x22B | GGUF | Q5_K_M | ~105 GB | |
| Mixtral 8x22B | GGUF | Q6_K | ~120 GB | |
| Mixtral 8x22B | GGUF | Q8_0 | ~155 GB | 4× 48 GB oder 2× 80 GB GPU |
| Kontextlänge | Modell-VRAM | KV-Cache zusätzlich | Gesamt VRAM ca. |
|---|---|---|---|
| 4 K Token | ~29 GB | ~1–2 GB | ~30–31 GB |
| 8 K Token | ~29 GB | ~2–3 GB | ~31–32 GB |
| 32 K Token | ~29 GB | ~6–8 GB | ~35–37 GB |