DeepSeek V3 & R1

DeepSeek AI · Dense Distilled & MoE 8/128 · 128k Kontext · 129k Vokabular · MIT-Lizenz

MoE 8/128 Distilled Dense Thinking / Reasoning Function Calling MLA Attention Enterprise / API

Architektur & Parameter — Vollmodelle

MoE 8/128 DeepSeek V3

Aktive Parameter37 B

Parameter gesamt671 B

Experten8 aktiv / 128 + 1 shared

Layer61

Hidden Dim7.168

Kontextfenster128k Token

Vokabular129.280

AttentionMLA (Multi-head Latent)

VeröffentlichtDez. 2024

LizenzMIT

MoE 8/128 DeepSeek V3 0324

Aktive Parameter37 B

Parameter gesamt671 B

Experten8 aktiv / 128 + 1 shared

Layer61

Hidden Dim7.168

Kontextfenster128k Token

Vokabular129.280

AttentionMLA (Multi-head Latent)

VeröffentlichtMärz 2025 (Update)

BesonderheitStärker bei Coding & Mathe

MoE 8/128 DeepSeek V3.1

Aktive Parameter37 B

Parameter gesamt671 B

Experten8 aktiv / 128 + 1 shared

Layer61

Kontextfenster128k Token

Vokabular129.280

AttentionMLA (Multi-head Latent)

BesonderheitHybrid: Thinking + Non-Thinking

VeröffentlichtAug. 2025

MoE 8/128 DeepSeek R1

Aktive Parameter37 B

Parameter gesamt671 B

Experten8 aktiv / 128 + 1 shared

Layer61

Hidden Dim7.168

Kontextfenster128k Token

Vokabular129.280

AttentionMLA (Multi-head Latent)

BesonderheitReines Reasoning-Modell (GRPO-RL)

VeröffentlichtJan. 2025

LizenzMIT

Architektur & Parameter — Distilled-Modelle (Consumer-tauglich)

Dense · Qwen2.5 R1-Distill-Qwen-1.5B

Parameter1,5 B

BasisQwen2.5-1.5B-Instruct

Layer28

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

Dense · Qwen2.5 R1-Distill-Qwen-7B

Parameter7 B

BasisQwen2.5-7B-Instruct

Layer28

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

Dense · Llama 3.1 R1-Distill-Llama-8B

Parameter8 B

BasisLlama-3.1-8B-Instruct

Layer32

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

Dense · Qwen2.5 R1-Distill-Qwen-14B

Parameter14 B

BasisQwen2.5-14B-Instruct

Layer40

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

Dense · Qwen2.5 R1-Distill-Qwen-32B

Parameter32 B

BasisQwen2.5-32B-Instruct

Layer64

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

Dense · Llama 3.3 R1-Distill-Llama-70B

Parameter70 B

BasisLlama-3.3-70B-Instruct

Layer80

Kontextfenster128k Token

ThinkingJa (destilliert von R1)

LizenzMIT

VRAM-Kompatibilität — Vollmodelle (Q4)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. Intel Arc Pro B60	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
DeepSeek V3 (671 B)	MoE 8/128	~400 GB	Nicht möglich~65× größer als VRAM	Nicht möglich~33× größer als VRAM	Nicht möglich~25× größer als VRAM	Nicht möglich~17× größer als VRAM	Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek V3 0324 (671 B)	MoE 8/128	~400 GB	Nicht möglich~65× größer als VRAM	Nicht möglich~33× größer als VRAM	Nicht möglich~25× größer als VRAM	Nicht möglich~17× größer als VRAM	Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek V3.1 (671 B)	MoE 8/128	~400 GB	Nicht möglich~65× größer als VRAM	Nicht möglich~33× größer als VRAM	Nicht möglich~25× größer als VRAM	Nicht möglich~17× größer als VRAM	Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek R1 (671 B)	MoE 8/128	~400 GB	Nicht möglich~65× größer als VRAM	Nicht möglich~33× größer als VRAM	Nicht möglich~25× größer als VRAM	Nicht möglich~17× größer als VRAM	Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM

VRAM-Kompatibilität — Distilled-Modelle (Q4)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. Intel Arc Pro B60	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
R1-Distill-Qwen-1.5B	Dense	~1 GB	Ultra-LeichtLäuft auf nahezu jeder GPU; massig Platz für langen Kontext	Ultra-LeichtRiesiger Puffer für parallele Slots	Ultra-LeichtRiesiger Puffer für parallele Slots	Ultra-LeichtRiesiger Puffer für parallele Slots	Sehr gut~20–30 Tok/Sek · Passt problemlos in RAM
R1-Distill-Qwen-7B	Dense	~4–5 GB	PerfektPasst gut; ~1–2 GB Puffer für Reasoning-Kontext	Sehr komfortabelViel Platz für langen Thinking-Kontext	Ultra-komfortabelMassig Puffer für lange Reasoning-Chains	Ultra-komfortabelIdeal für produktive Nutzung	Gut nutzbar~12–15 Tok/Sek · Passt komplett in RAM
R1-Distill-Llama-8B	Dense	~5 GB	GrenzbereichPasst knapp; kaum Puffer für langen Thinking-Kontext	KomfortabelAusreichend Puffer für Reasoning-Chains	Sehr komfortabelViel Reserven für langen Kontext	Ultra-komfortabelIdeal für produktive Nutzung	Gut nutzbar~10–13 Tok/Sek · Passt komplett in RAM
R1-Distill-Qwen-14B	Dense	~9 GB	Nicht möglichVRAM zu klein	GrenzbereichPasst knapp; kaum Puffer für lange Reasoning-Chains	KomfortabelGuter Puffer für Thinking-Kontext	Sehr komfortabelRiesiger Puffer; Sweet-Spot für Reasoning	Akzeptabel~6–9 Tok/Sek · Belegt halben RAM; träge bei 128k
R1-Distill-Qwen-32B	Dense	~20 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM zu klein	Knapp (Limit)Passt gerade so; kaum Puffer für Reasoning-Kontext	GrenzbereichPasst, aber langer Thinking-Kontext droht Überlauf	Nicht möglichÜberschreitet 16 GB RAM; System swappt
R1-Distill-Llama-70B	Dense	~42 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM viel zu klein	Nicht möglichBenötigt 2× 24 GB GPU oder 48 GB+ Unified RAM	Nicht möglichSprengt Consumer-RAM; 64 GB+ RAM notwendig

Fähigkeiten

Modell	Text	Code	Thinking	Function Calling	Multilingual	Kontext	Typ
DeepSeek V3	✓	✓	✗	✓	✓	128k	Vollmodell
DeepSeek V3 0324	✓	✓	✗	✓	✓	128k	Vollmodell
DeepSeek V3.1	✓	✓	~	✓	✓	128k	Vollmodell
DeepSeek R1	✓	✓	✓	~	✓	128k	Vollmodell
R1-Distill-Qwen-1.5B	✓	~	✓	✗	~	128k	Distilled
R1-Distill-Qwen-7B	✓	✓	✓	✗	✓	128k	Distilled
R1-Distill-Llama-8B	✓	✓	✓	✗	✓	128k	Distilled
R1-Distill-Qwen-14B	✓	✓	✓	✗	✓	128k	Distilled
R1-Distill-Qwen-32B	✓	✓	✓	✗	✓	128k	Distilled
R1-Distill-Llama-70B	✓	✓	✓	✗	✓	128k	Distilled

Quantisierungen — Vollmodelle (V3 / R1)

Format	Variante	VRAM / RAM	Mindest-Hardware	Hinweis
GGUF · Unsloth Dynamic	UD-IQ1_S	~130 GB	2× H100 80 GB oder 192 GB Unified RAM	Kleinstes nutzbares GGUF; stark lossy
GGUF · Unsloth Dynamic	UD-IQ2_XXS	~190 GB	3× A100 80 GB oder 192+ GB Unified RAM	Bessere Qualität als IQ1
GGUF · Unsloth Dynamic	UD-Q2_K_XL	~240 GB	3× A100 80 GB oder 256+ GB Unified RAM
GGUF	Q4_K_M	~400 GB	5× A100 80 GB	Standard-Empfehlung für Multi-GPU
FP8 (offiziell)	—	~671 GB	8–9× H100 80 GB	Referenz-Precision von DeepSeek; MTP-fähig
GGUF	Q8_0	~716 GB	9× A100 80 GB
BF16	—	~1.342 GB	17× H100 80 GB	Volles Gewicht · nur Forschung / Datacenter

Quantisierungen — Distilled-Modelle

Modell	Format	Variante	VRAM	Hinweis
Qwen-1.5B	GGUF	Q4_K_M	~1 GB	Läuft auf jeder modernen GPU
Qwen-7B	GGUF	Q4_K_M	~4,5 GB	Empfohlen für 6-GB-GPUs
Qwen-7B	GGUF	Q8_0	~7 GB
Llama-8B	GGUF	Q4_K_M	~5 GB	Empfohlen für 6–8 GB VRAM
Llama-8B	GGUF	Q8_0	~8 GB
Qwen-14B	GGUF	Q4_K_M	~9 GB	Sweet-Spot für 12-GB-GPUs
Qwen-14B	GGUF	Q8_0	~15 GB
Qwen-32B	GGUF	Q4_K_M	~20 GB	Benötigt 16–24 GB VRAM
Qwen-32B	GGUF	Q8_0	~34 GB
Llama-70B	GGUF	Q4_K_M	~42 GB	2× 24 GB GPU oder 48 GB+ Unified RAM
Llama-70B	GGUF	Q8_0	~75 GB	Nur Multi-GPU oder 80 GB+ Mac

Kontextabhängiger VRAM-Bedarf (V3 / R1 Q4_K_M, Multi-GPU)

Kontextlänge	KV-Cache (BF16)	KV-Cache (Q8)	Gesamt VRAM ca.
4 K Token	~1,2 GB	~0,6 GB	~401 GB
16 K Token	~4,8 GB	~2,4 GB	~405 GB
128 K Token	~38 GB	~19 GB	~438 GB

Deployment

API Vollmodell — Empfohlene Option

Endpointapi.deepseek.com

V3 Modell-IDdeepseek-chat

R1 Modell-IDdeepseek-reasoner

Input-Preis$0,27 / M Token

Output-Preis$1,10 / M Token

Ollama Distilled — Consumer-Hardware

1.5Bollama run deepseek-r1:1.5b

7Bollama run deepseek-r1:7b

8Bollama run deepseek-r1:8b

14Bollama run deepseek-r1:14b

32Bollama run deepseek-r1:32b

70Bollama run deepseek-r1:70b

LM Studio Distilled — GUI mit GGUF-Auswahl

7B / 8BFür 6-GB-GPUs — Q4_K_M wählen

14BFür 12-GB-GPUs — Q4_K_M wählen

32BFür 16–24-GB-GPUs — Q4_K_M wählen

HinweisThinking-Tokens sichtbar in LM Studio

llama.cpp Vollmodell — GGUF Multi-GPU

Modell laden-m deepseek-v3-UD-IQ1_S.gguf

GPU-Offload-ngl 99

KV-Cache--cache-type-k q8_0 --cache-type-v q8_0

vLLM Vollmodell — Multi-GPU (FP8)

Befehlvllm serve deepseek-ai/DeepSeek-V3

Tensor Parallel--tensor-parallel-size 8

Precision--dtype fp8

Kontextlimit--max-model-len 32768

vLLM Tool Use & Reasoning

Tool Calling--enable-auto-tool-choice --tool-call-parser hermes

R1 / V3.1 Thinking--reasoning-parser deepseek_r1

FP8 KV-Cache--kv-cache-dtype fp8 (−50 %)

Hinweise:
· DeepSeek V3 / R1 (671 B) sind keine Consumer-Hardware-Modelle. Die kleinste GGUF-Quantisierung (IQ1_S ~130 GB) erfordert Multi-GPU oder Apple M3 Ultra 192 GB. Für Privatnutzung ist die offizielle API die praktikabelste Option.
· Die Distilled-Modelle (1.5B bis 32B) sind hingegen vollständig Consumer-tauglich — sie beherrschen Thinking/Reasoning auf Niveau, das deutlich über ihren Parameterzahlen liegt, weil das Verhalten direkt aus R1 (671 B) destilliert wurde.
· Die aktiven Parameter der Vollmodelle betragen nur 37 B pro Forward-Pass (MoE-Routing) — bei ausreichend VRAM ermöglicht das eine vergleichsweise hohe Inferenzgeschwindigkeit trotz 671 B Gesamtparameter.
· Multi-head Latent Attention (MLA) reduziert den KV-Cache-Footprint erheblich gegenüber klassischer Multi-Head-Attention — besonders vorteilhaft bei langen Reasoning-Chains und 128k-Kontext.
· DeepSeek R1 wurde ausschließlich per Reinforcement Learning (GRPO) trainiert, ohne überwachtes Fine-Tuning (SFT) in der ersten Phase — ein für Open-Source ungewöhnlicher Trainingsansatz.
· V3 0324 (März 2025): Drop-in-Update mit gleicher Architektur, deutlich verbesserten Coding- und Mathematik-Fähigkeiten.
· V3.1 (Aug. 2025): Hybridmodell — Thinking-Modus ist schaltbar, ohne zwei separate Modelle laden zu müssen.
· Multi-Token Prediction (MTP) beschleunigt den Durchsatz bei Server-Deployments — nicht alle Inference-Engines unterstützen dies vollständig.
· FP8 ist die von DeepSeek empfohlene Referenz-Precision (~671 GB VRAM, 8× H100 80 GB). vLLM unterstützt neben NVIDIA CUDA auch AMD ROCm (MI300X/MI325X) für Multi-GPU-Setups.
· Distilled 32B (Qwen-Basis): Auf einer 16-GB-GPU läuft Q4_K_M (~20 GB) nur mit knappem Puffer — langer Reasoning-Kontext kann zum Überlauf führen; 24 GB empfohlen.
· Lizenz: MIT — keine proprietären Nutzungsbeschränkungen für alle V3- und R1-Varianten (inkl. Distilled).