Mistral & Mixtral

Mistral AI · Dense & Mixture-of-Experts · seit September 2023 · 100+ Sprachen

mistral Mixtral MoE Function Calling Code-Spezialist Sliding Window Attention

Architektur & Parameter

Dense Mistral 7B

Parameter7 B

Layer32

Attention Heads32 (GQA: 8 KV-Heads)

Kontextfenster8k Token

Sliding Window4.096 Token

Vokabular32.000

VeröffentlichtSeptember 2023

LizenzApache 2.0

Dense Mistral Nemo 12B

Parameter12 B

Layer40

Kontextfenster128k Token

TokenizerTekken (131k Vokabular)

BesonderheitFP8-optimiert (QAT)

Sprachen100+

VeröffentlichtJuli 2024

LizenzApache 2.0

Dense Codestral 22B

Parameter22 B

Kontextfenster32k Token

Programmiersprachen80+

Fill-in-Middle (FIM)Ja

BesonderheitCode-Spezialist

LizenzNon-Commercial (MNPL)

MoE 2/8 Mixtral 8x7B

Aktive Parameter12,9 B

Parameter gesamt46,7 B

Experten2 aktiv / 8 gesamt

Layer32

Kontextfenster32k Token

Vokabular32.000

BesonderheitAlle 8 Experten im VRAM

LizenzApache 2.0

MoE 2/8 Mixtral 8x22B

Aktive Parameter39 B

Parameter gesamt141 B

Experten2 aktiv / 8 gesamt

Kontextfenster64k Token

Function CallingJa

BesonderheitMulti-GPU erforderlich

LizenzApache 2.0

VRAM-Kompatibilität (Q4-Quantisierung)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. Intel Arc Pro B60	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Mistral 7B	Dense	~4 GB	PerfektLäuft voll im VRAM, ~2 GB Puffer für Kontext	Sehr komfortabelMassig Platz für langen Kontext	Ultra-komfortabelViel Reserven für parallele Anfragen	Ultra-LeichtIdeal für produktive Nutzung, viele parallele Slots	Gut nutzbar~12–15 Tok/Sek · Modell passt komplett in RAM
Mistral Nemo 12B	Dense	~8 GB	Nicht möglichVRAM zu klein; Modell überschreitet Limit	GrenzbereichPasst knapp; kaum Puffer für langen 128k-Kontext	KomfortabelAusreichend Puffer für normalen Kontext	Sehr komfortabelRiesiger KV-Cache-Puffer verfügbar	Akzeptabel~8–10 Tok/Sek · Belegt halben RAM; bei 128k-Kontext träge
Codestral 22B	Dense	~12 GB	Nicht möglichVRAM viel zu klein	GrenzbereichPasst gerade so; kaum Puffer für langen Code-Kontext	Knapp (Limit)Modell passt, aber bei großen Dateien droht Überlauf	KomfortabelGuter Puffer für Code-Completion und FIM	Nicht möglichÜberschreitet verfügbaren RAM
Mixtral 8x7B (46,7 B)	MoE 2/8	~29 GB	Nicht möglichVRAM viel zu klein	Nicht möglichAlle 8 Experten brauchen gemeinsam ~29 GB	Nur Q2_K (~18 GB)Starker Qualitätsverlust; kaum praxistauglich	Q3_K_M (~23 GB)Passt knapp; minimaler Kontext-Puffer	Nicht möglichSprengt 16 GB RAM; System swappt massiv
Mixtral 8x22B (141 B)	MoE 2/8	~90 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM viel zu klein	Nicht möglichBenötigt mind. 4× 24 GB GPU	Nicht möglichSprengt jeden Consumer-RAM

Fähigkeiten & Modalitäten

Modell	Text	Code	FIM	Function Calling	Multilingual	Kontext	Lizenz
Mistral 7B	✓	~	✗	~	~	8k	Apache 2.0
Mistral Nemo 12B	✓	✓	✗	✓	✓	128k	Apache 2.0
Codestral 22B	~	✓	✓	✗	~	32k	Non-Commercial
Mixtral 8x7B	✓	✓	✗	✓	✓	32k	Apache 2.0
Mixtral 8x22B	✓	✓	✗	✓	✓	64k	Apache 2.0

Quantisierungen

Modell	Format	Variante	VRAM	Hinweis
Mistral 7B	GGUF	Q4_K_M	~4 GB	Empfohlen für 6-GB-GPUs
Mistral 7B	GGUF	Q8_0	~7 GB
Mistral 7B	FP16	—	~14 GB	Volles Gewicht
Nemo 12B	GGUF	Q4_K_M	~8 GB	Empfohlen für 12-GB-GPUs
Nemo 12B	FP8 (offiziell, QAT)	—	~12 GB	Optimierte Qualität für NVIDIA Hopper (H100/H200)
Nemo 12B	FP16	—	~24 GB	Volles Gewicht
Mixtral 8x7B	GGUF	Q2_K	~18 GB	Kleinstes nutzbares GGUF; starker Qualitätsverlust
Mixtral 8x7B	GGUF	Q3_K_M	~23 GB	Empfohlen für 24-GB-GPU
Mixtral 8x7B	GGUF	Q4_K_M	~29 GB	Standard-Qualitätsstufe; braucht 32-GB-GPU
Mixtral 8x7B	GGUF	Q5_K_M	~35 GB
Mixtral 8x7B	GGUF	Q6_K	~41 GB
Mixtral 8x7B	GGUF	Q8_0	~52 GB
Mixtral 8x7B	FP16	—	~95 GB	Nur Multi-GPU
Mixtral 8x22B	GGUF	Q3_K_M	~72 GB	3× 24 GB GPU oder 64 GB Mac
Mixtral 8x22B	GGUF	Q4_K_M	~90 GB	96 GB Mac oder 4× 24 GB GPU
Mixtral 8x22B	GGUF	Q5_K_M	~105 GB
Mixtral 8x22B	GGUF	Q6_K	~120 GB
Mixtral 8x22B	GGUF	Q8_0	~155 GB	4× 48 GB oder 2× 80 GB GPU

Kontextabhängiger VRAM-Bedarf (Mixtral 8x7B, Q4_K_M)

Kontextlänge	Modell-VRAM	KV-Cache zusätzlich	Gesamt VRAM ca.
4 K Token	~29 GB	~1–2 GB	~30–31 GB
8 K Token	~29 GB	~2–3 GB	~31–32 GB
32 K Token	~29 GB	~6–8 GB	~35–37 GB

Deployment

Ollama Einfachste Option

Mistral 7Bollama run mistral:7b

Nemo 12Bollama run mistral-nemo

Codestralollama run codestral

Mixtral 8x7Bollama run mixtral:8x7b

Mixtral 8x22Bollama run mixtral:8x22b

LM Studio GUI mit GGUF-Auswahl

Alle ModelleGGUF direkt wählbar

Mixtral 8x7B TippQ3_K_M für 24-GB-GPUs wählen

llama.cpp KV-Optimierung

KV-Quantisierung--cache-type-k q4_0 --cache-type-v q4_0

GPU-Offload-ngl 999

GGUF-QuelleTheBloke / bartowski auf HuggingFace

vLLM Single-GPU (7B / Nemo)

7Bvllm serve mistralai/Mistral-7B-Instruct-v0.3

Nemo 12Bvllm serve mistralai/Mistral-Nemo-Instruct-2407

vLLM Multi-GPU (Mixtral)

8x7B (2× GPU)--tensor-parallel-size 2

8x22B (4× GPU)--tensor-parallel-size 4

GPU-Auslastung--gpu-memory-utilization 0.90

Codestral API FIM via Mistral AI

Endpointcodestral.mistral.ai/ v1/fim/completions

LokalNon-Commercial-Lizenz beachten

IDE-IntegrationContinue.dev, Cursor, VS Code

Hinweise:
· VRAM-Werte gelten für Q4_K_M-Quantisierung ohne KV-Cache. Bei vollem Kontextfenster steigt der Bedarf deutlich.
· Mixtral MoE: Trotz nur 2 aktiver Experten pro Token müssen alle 8 Experten vollständig im VRAM liegen — der VRAM-Bedarf richtet sich nach der Gesamtparameterzahl (46,7 B bzw. 141 B), nicht nach den aktiven Parametern.
· Mistral 7B war bei Veröffentlichung (September 2023) das erste Open-Source-Modell, das GPT-3.5 auf mehreren Benchmarks übertroffen hat — mit nur 7 B Parametern durch Sliding Window Attention und GQA.
· Mistral Nemo 12B nutzt den Tekken-Tokenizer mit 131.072 Vokabular-Tokens — deutlich besser für Nicht-Latein-Sprachen als das 32k-Vokabular älterer Mistral-Modelle.
· Mistral Nemo 12B ist für FP8-Quantisierung optimiert (Quantization-Aware Training) — ideal für NVIDIA Hopper-Architektur (H100, H200).
· Codestral 22B ist unter der Mistral AI Non-Production License (MNPL) veröffentlicht — kommerzielle Nutzung erfordert eine separate Lizenz; lokale Nutzung für Entwickler ist erlaubt.
· Codestral Fill-in-Middle (FIM) ermöglicht Code-Completion mitten im Dokument — ideal für IDE-Integration (Continue.dev, Cursor).
· Mixtral 8x7B mit Q2_K (~18 GB) ist technisch auf einer 16-GB-GPU lauffähig, aber der Qualitätsverlust ist erheblich; neuere Modelle wie Qwen3-14B (Q4, ~9 GB) liefern vergleichbare oder bessere Ergebnisse bei deutlich weniger VRAM.
· Mixtral 8x22B ist auf Consumer-Hardware nicht praxistauglich; Cloud-API empfohlen (Mistral AI Platform, Together.ai, Anyscale).
· Alle Mistral- und Mixtral-Modelle (außer Codestral) sind unter Apache 2.0 lizenziert — keine proprietären Nutzungsbeschränkungen für kommerzielle Projekte.