← VRAM Calculator

Mistral & Mixtral

Mistral AI · Dense & Mixture-of-Experts · seit September 2023 · 100+ Sprachen

mistral Mixtral MoE Function Calling Code-Spezialist Sliding Window Attention

Architektur & Parameter

Dense Mistral 7B
Parameter7 B
Layer32
Attention Heads32 (GQA: 8 KV-Heads)
Kontextfenster8k Token
Sliding Window4.096 Token
Vokabular32.000
VeröffentlichtSeptember 2023
LizenzApache 2.0
Dense Mistral Nemo 12B
Parameter12 B
Layer40
Kontextfenster128k Token
TokenizerTekken (131k Vokabular)
BesonderheitFP8-optimiert (QAT)
Sprachen100+
VeröffentlichtJuli 2024
LizenzApache 2.0
Dense Codestral 22B
Parameter22 B
Kontextfenster32k Token
Programmiersprachen80+
Fill-in-Middle (FIM)Ja
BesonderheitCode-Spezialist
LizenzNon-Commercial (MNPL)
MoE 2/8 Mixtral 8x7B
Aktive Parameter12,9 B
Parameter gesamt46,7 B
Experten2 aktiv / 8 gesamt
Layer32
Kontextfenster32k Token
Vokabular32.000
BesonderheitAlle 8 Experten im VRAM
LizenzApache 2.0
MoE 2/8 Mixtral 8x22B
Aktive Parameter39 B
Parameter gesamt141 B
Experten2 aktiv / 8 gesamt
Kontextfenster64k Token
Function CallingJa
BesonderheitMulti-GPU erforderlich
LizenzApache 2.0

VRAM-Kompatibilität (Q4-Quantisierung)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. Intel Arc Pro B60 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Mistral 7B Dense ~4 GB PerfektLäuft voll im VRAM, ~2 GB Puffer für Kontext Sehr komfortabelMassig Platz für langen Kontext Ultra-komfortabelViel Reserven für parallele Anfragen Ultra-LeichtIdeal für produktive Nutzung, viele parallele Slots Gut nutzbar~12–15 Tok/Sek · Modell passt komplett in RAM
Mistral Nemo 12B Dense ~8 GB Nicht möglichVRAM zu klein; Modell überschreitet Limit GrenzbereichPasst knapp; kaum Puffer für langen 128k-Kontext KomfortabelAusreichend Puffer für normalen Kontext Sehr komfortabelRiesiger KV-Cache-Puffer verfügbar Akzeptabel~8–10 Tok/Sek · Belegt halben RAM; bei 128k-Kontext träge
Codestral 22B Dense ~12 GB Nicht möglichVRAM viel zu klein GrenzbereichPasst gerade so; kaum Puffer für langen Code-Kontext Knapp (Limit)Modell passt, aber bei großen Dateien droht Überlauf KomfortabelGuter Puffer für Code-Completion und FIM Nicht möglichÜberschreitet verfügbaren RAM
Mixtral 8x7B (46,7 B) MoE 2/8 ~29 GB Nicht möglichVRAM viel zu klein Nicht möglichAlle 8 Experten brauchen gemeinsam ~29 GB Nur Q2_K (~18 GB)Starker Qualitätsverlust; kaum praxistauglich Q3_K_M (~23 GB)Passt knapp; minimaler Kontext-Puffer Nicht möglichSprengt 16 GB RAM; System swappt massiv
Mixtral 8x22B (141 B) MoE 2/8 ~90 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM viel zu klein Nicht möglichVRAM viel zu klein Nicht möglichBenötigt mind. 4× 24 GB GPU Nicht möglichSprengt jeden Consumer-RAM

Fähigkeiten & Modalitäten

Modell Text Code FIM Function Calling Multilingual Kontext Lizenz
Mistral 7B ~ ~ ~ 8k Apache 2.0
Mistral Nemo 12B 128k Apache 2.0
Codestral 22B ~ ~ 32k Non-Commercial
Mixtral 8x7B 32k Apache 2.0
Mixtral 8x22B 64k Apache 2.0

Quantisierungen

Modell Format Variante VRAM Hinweis
Mistral 7B GGUF Q4_K_M ~4 GB Empfohlen für 6-GB-GPUs
Mistral 7B GGUF Q8_0 ~7 GB
Mistral 7B FP16 ~14 GB Volles Gewicht
Nemo 12B GGUF Q4_K_M ~8 GB Empfohlen für 12-GB-GPUs
Nemo 12B FP8 (offiziell, QAT) ~12 GB Optimierte Qualität für NVIDIA Hopper (H100/H200)
Nemo 12B FP16 ~24 GB Volles Gewicht
Mixtral 8x7B GGUF Q2_K ~18 GB Kleinstes nutzbares GGUF; starker Qualitätsverlust
Mixtral 8x7B GGUF Q3_K_M ~23 GB Empfohlen für 24-GB-GPU
Mixtral 8x7B GGUF Q4_K_M ~29 GB Standard-Qualitätsstufe; braucht 32-GB-GPU
Mixtral 8x7B GGUF Q5_K_M ~35 GB
Mixtral 8x7B GGUF Q6_K ~41 GB
Mixtral 8x7B GGUF Q8_0 ~52 GB
Mixtral 8x7B FP16 ~95 GB Nur Multi-GPU
Mixtral 8x22B GGUF Q3_K_M ~72 GB 3× 24 GB GPU oder 64 GB Mac
Mixtral 8x22B GGUF Q4_K_M ~90 GB 96 GB Mac oder 4× 24 GB GPU
Mixtral 8x22B GGUF Q5_K_M ~105 GB
Mixtral 8x22B GGUF Q6_K ~120 GB
Mixtral 8x22B GGUF Q8_0 ~155 GB 4× 48 GB oder 2× 80 GB GPU

Kontextabhängiger VRAM-Bedarf (Mixtral 8x7B, Q4_K_M)

Kontextlänge Modell-VRAM KV-Cache zusätzlich Gesamt VRAM ca.
4 K Token ~29 GB ~1–2 GB ~30–31 GB
8 K Token ~29 GB ~2–3 GB ~31–32 GB
32 K Token ~29 GB ~6–8 GB ~35–37 GB

Deployment

Ollama Einfachste Option
Mistral 7Bollama run mistral:7b
Nemo 12Bollama run mistral-nemo
Codestralollama run codestral
Mixtral 8x7Bollama run mixtral:8x7b
Mixtral 8x22Bollama run mixtral:8x22b
LM Studio GUI mit GGUF-Auswahl
Alle ModelleGGUF direkt wählbar
Mixtral 8x7B TippQ3_K_M für 24-GB-GPUs wählen
llama.cpp KV-Optimierung
KV-Quantisierung--cache-type-k q4_0 --cache-type-v q4_0
GPU-Offload-ngl 999
GGUF-QuelleTheBloke / bartowski auf HuggingFace
vLLM Single-GPU (7B / Nemo)
7Bvllm serve mistralai/Mistral-7B-Instruct-v0.3
Nemo 12Bvllm serve mistralai/Mistral-Nemo-Instruct-2407
vLLM Multi-GPU (Mixtral)
8x7B (2× GPU)--tensor-parallel-size 2
8x22B (4× GPU)--tensor-parallel-size 4
GPU-Auslastung--gpu-memory-utilization 0.90
Codestral API FIM via Mistral AI
Endpointcodestral.mistral.ai/ v1/fim/completions
LokalNon-Commercial-Lizenz beachten
IDE-IntegrationContinue.dev, Cursor, VS Code
Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem Kontextfenster steigt der Bedarf deutlich.
· Mixtral MoE: Trotz nur 2 aktiver Experten pro Token müssen alle 8 Experten vollständig im VRAM liegen — der VRAM-Bedarf richtet sich nach der Gesamtparameterzahl (46,7 B bzw. 141 B), nicht nach den aktiven Parametern.
· Mistral 7B war bei Veröffentlichung (September 2023) das erste Open-Source-Modell, das GPT-3.5 auf mehreren Benchmarks übertroffen hat — mit nur 7 B Parametern durch Sliding Window Attention und GQA.
· Mistral Nemo 12B nutzt den Tekken-Tokenizer mit 131.072 Vokabular-Tokens — deutlich besser für Nicht-Latein-Sprachen als das 32k-Vokabular älterer Mistral-Modelle.
· Mistral Nemo 12B ist für FP8-Quantisierung optimiert (Quantization-Aware Training) — ideal für NVIDIA Hopper-Architektur (H100, H200).
· Codestral 22B ist unter der Mistral AI Non-Production License (MNPL) veröffentlicht — kommerzielle Nutzung erfordert eine separate Lizenz; lokale Nutzung für Entwickler ist erlaubt.
· Codestral Fill-in-Middle (FIM) ermöglicht Code-Completion mitten im Dokument — ideal für IDE-Integration (Continue.dev, Cursor).
· Mixtral 8x7B mit Q2_K (~18 GB) ist technisch auf einer 16-GB-GPU lauffähig, aber der Qualitätsverlust ist erheblich; neuere Modelle wie Qwen3-14B (Q4, ~9 GB) liefern vergleichbare oder bessere Ergebnisse bei deutlich weniger VRAM.
· Mixtral 8x22B ist auf Consumer-Hardware nicht praxistauglich; Cloud-API empfohlen (Mistral AI Platform, Together.ai, Anyscale).
· Alle Mistral- und Mixtral-Modelle (außer Codestral) sind unter Apache 2.0 lizenziert — keine proprietären Nutzungsbeschränkungen für kommerzielle Projekte.