← VRAM Calculator

DeepSeek V3 & R1

DeepSeek AI · Dense Distilled & MoE 8/128 · 128k Kontext · 129k Vokabular · MIT-Lizenz

MoE 8/128 Distilled Dense Thinking / Reasoning Function Calling MLA Attention Enterprise / API

Architektur & Parameter — Vollmodelle

MoE 8/128 DeepSeek V3
Aktive Parameter37 B
Parameter gesamt671 B
Experten8 aktiv / 128 + 1 shared
Layer61
Hidden Dim7.168
Kontextfenster128k Token
Vokabular129.280
AttentionMLA (Multi-head Latent)
VeröffentlichtDez. 2024
LizenzMIT
MoE 8/128 DeepSeek V3 0324
Aktive Parameter37 B
Parameter gesamt671 B
Experten8 aktiv / 128 + 1 shared
Layer61
Hidden Dim7.168
Kontextfenster128k Token
Vokabular129.280
AttentionMLA (Multi-head Latent)
VeröffentlichtMärz 2025 (Update)
BesonderheitStärker bei Coding & Mathe
MoE 8/128 DeepSeek V3.1
Aktive Parameter37 B
Parameter gesamt671 B
Experten8 aktiv / 128 + 1 shared
Layer61
Kontextfenster128k Token
Vokabular129.280
AttentionMLA (Multi-head Latent)
BesonderheitHybrid: Thinking + Non-Thinking
VeröffentlichtAug. 2025
MoE 8/128 DeepSeek R1
Aktive Parameter37 B
Parameter gesamt671 B
Experten8 aktiv / 128 + 1 shared
Layer61
Hidden Dim7.168
Kontextfenster128k Token
Vokabular129.280
AttentionMLA (Multi-head Latent)
BesonderheitReines Reasoning-Modell (GRPO-RL)
VeröffentlichtJan. 2025
LizenzMIT

Architektur & Parameter — Distilled-Modelle (Consumer-tauglich)

Dense · Qwen2.5 R1-Distill-Qwen-1.5B
Parameter1,5 B
BasisQwen2.5-1.5B-Instruct
Layer28
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT
Dense · Qwen2.5 R1-Distill-Qwen-7B
Parameter7 B
BasisQwen2.5-7B-Instruct
Layer28
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT
Dense · Llama 3.1 R1-Distill-Llama-8B
Parameter8 B
BasisLlama-3.1-8B-Instruct
Layer32
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT
Dense · Qwen2.5 R1-Distill-Qwen-14B
Parameter14 B
BasisQwen2.5-14B-Instruct
Layer40
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT
Dense · Qwen2.5 R1-Distill-Qwen-32B
Parameter32 B
BasisQwen2.5-32B-Instruct
Layer64
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT
Dense · Llama 3.3 R1-Distill-Llama-70B
Parameter70 B
BasisLlama-3.3-70B-Instruct
Layer80
Kontextfenster128k Token
ThinkingJa (destilliert von R1)
LizenzMIT

VRAM-Kompatibilität — Vollmodelle (Q4)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. Intel Arc Pro B60 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
DeepSeek V3 (671 B) MoE 8/128 ~400 GB Nicht möglich~65× größer als VRAM Nicht möglich~33× größer als VRAM Nicht möglich~25× größer als VRAM Nicht möglich~17× größer als VRAM Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek V3 0324 (671 B) MoE 8/128 ~400 GB Nicht möglich~65× größer als VRAM Nicht möglich~33× größer als VRAM Nicht möglich~25× größer als VRAM Nicht möglich~17× größer als VRAM Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek V3.1 (671 B) MoE 8/128 ~400 GB Nicht möglich~65× größer als VRAM Nicht möglich~33× größer als VRAM Nicht möglich~25× größer als VRAM Nicht möglich~17× größer als VRAM Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM
DeepSeek R1 (671 B) MoE 8/128 ~400 GB Nicht möglich~65× größer als VRAM Nicht möglich~33× größer als VRAM Nicht möglich~25× größer als VRAM Nicht möglich~17× größer als VRAM Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM

VRAM-Kompatibilität — Distilled-Modelle (Q4)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. Intel Arc Pro B60 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
R1-Distill-Qwen-1.5B Dense ~1 GB Ultra-LeichtLäuft auf nahezu jeder GPU; massig Platz für langen Kontext Ultra-LeichtRiesiger Puffer für parallele Slots Ultra-LeichtRiesiger Puffer für parallele Slots Ultra-LeichtRiesiger Puffer für parallele Slots Sehr gut~20–30 Tok/Sek · Passt problemlos in RAM
R1-Distill-Qwen-7B Dense ~4–5 GB PerfektPasst gut; ~1–2 GB Puffer für Reasoning-Kontext Sehr komfortabelViel Platz für langen Thinking-Kontext Ultra-komfortabelMassig Puffer für lange Reasoning-Chains Ultra-komfortabelIdeal für produktive Nutzung Gut nutzbar~12–15 Tok/Sek · Passt komplett in RAM
R1-Distill-Llama-8B Dense ~5 GB GrenzbereichPasst knapp; kaum Puffer für langen Thinking-Kontext KomfortabelAusreichend Puffer für Reasoning-Chains Sehr komfortabelViel Reserven für langen Kontext Ultra-komfortabelIdeal für produktive Nutzung Gut nutzbar~10–13 Tok/Sek · Passt komplett in RAM
R1-Distill-Qwen-14B Dense ~9 GB Nicht möglichVRAM zu klein GrenzbereichPasst knapp; kaum Puffer für lange Reasoning-Chains KomfortabelGuter Puffer für Thinking-Kontext Sehr komfortabelRiesiger Puffer; Sweet-Spot für Reasoning Akzeptabel~6–9 Tok/Sek · Belegt halben RAM; träge bei 128k
R1-Distill-Qwen-32B Dense ~20 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM zu klein Knapp (Limit)Passt gerade so; kaum Puffer für Reasoning-Kontext GrenzbereichPasst, aber langer Thinking-Kontext droht Überlauf Nicht möglichÜberschreitet 16 GB RAM; System swappt
R1-Distill-Llama-70B Dense ~42 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM viel zu klein Nicht möglichVRAM viel zu klein Nicht möglichBenötigt 2× 24 GB GPU oder 48 GB+ Unified RAM Nicht möglichSprengt Consumer-RAM; 64 GB+ RAM notwendig

Fähigkeiten

Modell Text Code Thinking Function Calling Multilingual Kontext Typ
DeepSeek V3 128k Vollmodell
DeepSeek V3 0324 128k Vollmodell
DeepSeek V3.1 ~ 128k Vollmodell
DeepSeek R1 ~ 128k Vollmodell
R1-Distill-Qwen-1.5B ~ ~ 128k Distilled
R1-Distill-Qwen-7B 128k Distilled
R1-Distill-Llama-8B 128k Distilled
R1-Distill-Qwen-14B 128k Distilled
R1-Distill-Qwen-32B 128k Distilled
R1-Distill-Llama-70B 128k Distilled

Quantisierungen — Vollmodelle (V3 / R1)

Format Variante VRAM / RAM Mindest-Hardware Hinweis
GGUF · Unsloth Dynamic UD-IQ1_S ~130 GB 2× H100 80 GB oder 192 GB Unified RAM Kleinstes nutzbares GGUF; stark lossy
GGUF · Unsloth Dynamic UD-IQ2_XXS ~190 GB 3× A100 80 GB oder 192+ GB Unified RAM Bessere Qualität als IQ1
GGUF · Unsloth Dynamic UD-Q2_K_XL ~240 GB 3× A100 80 GB oder 256+ GB Unified RAM
GGUF Q4_K_M ~400 GB 5× A100 80 GB Standard-Empfehlung für Multi-GPU
FP8 (offiziell) ~671 GB 8–9× H100 80 GB Referenz-Precision von DeepSeek; MTP-fähig
GGUF Q8_0 ~716 GB 9× A100 80 GB
BF16 ~1.342 GB 17× H100 80 GB Volles Gewicht · nur Forschung / Datacenter

Quantisierungen — Distilled-Modelle

Modell Format Variante VRAM Hinweis
Qwen-1.5B GGUF Q4_K_M ~1 GB Läuft auf jeder modernen GPU
Qwen-7B GGUF Q4_K_M ~4,5 GB Empfohlen für 6-GB-GPUs
Qwen-7B GGUF Q8_0 ~7 GB
Llama-8B GGUF Q4_K_M ~5 GB Empfohlen für 6–8 GB VRAM
Llama-8B GGUF Q8_0 ~8 GB
Qwen-14B GGUF Q4_K_M ~9 GB Sweet-Spot für 12-GB-GPUs
Qwen-14B GGUF Q8_0 ~15 GB
Qwen-32B GGUF Q4_K_M ~20 GB Benötigt 16–24 GB VRAM
Qwen-32B GGUF Q8_0 ~34 GB
Llama-70B GGUF Q4_K_M ~42 GB 2× 24 GB GPU oder 48 GB+ Unified RAM
Llama-70B GGUF Q8_0 ~75 GB Nur Multi-GPU oder 80 GB+ Mac

Kontextabhängiger VRAM-Bedarf (V3 / R1 Q4_K_M, Multi-GPU)

Kontextlänge KV-Cache (BF16) KV-Cache (Q8) Gesamt VRAM ca.
4 K Token ~1,2 GB ~0,6 GB ~401 GB
16 K Token ~4,8 GB ~2,4 GB ~405 GB
128 K Token ~38 GB ~19 GB ~438 GB

Deployment

API Vollmodell — Empfohlene Option
Endpointapi.deepseek.com
V3 Modell-IDdeepseek-chat
R1 Modell-IDdeepseek-reasoner
Input-Preis$0,27 / M Token
Output-Preis$1,10 / M Token
Ollama Distilled — Consumer-Hardware
1.5Bollama run deepseek-r1:1.5b
7Bollama run deepseek-r1:7b
8Bollama run deepseek-r1:8b
14Bollama run deepseek-r1:14b
32Bollama run deepseek-r1:32b
70Bollama run deepseek-r1:70b
LM Studio Distilled — GUI mit GGUF-Auswahl
7B / 8BFür 6-GB-GPUs — Q4_K_M wählen
14BFür 12-GB-GPUs — Q4_K_M wählen
32BFür 16–24-GB-GPUs — Q4_K_M wählen
HinweisThinking-Tokens sichtbar in LM Studio
llama.cpp Vollmodell — GGUF Multi-GPU
Modell laden-m deepseek-v3-UD-IQ1_S.gguf
GPU-Offload-ngl 99
KV-Cache--cache-type-k q8_0 --cache-type-v q8_0
vLLM Vollmodell — Multi-GPU (FP8)
Befehlvllm serve deepseek-ai/DeepSeek-V3
Tensor Parallel--tensor-parallel-size 8
Precision--dtype fp8
Kontextlimit--max-model-len 32768
vLLM Tool Use & Reasoning
Tool Calling--enable-auto-tool-choice --tool-call-parser hermes
R1 / V3.1 Thinking--reasoning-parser deepseek_r1
FP8 KV-Cache--kv-cache-dtype fp8 (−50 %)
Hinweise:
· DeepSeek V3 / R1 (671 B) sind keine Consumer-Hardware-Modelle. Die kleinste GGUF-Quantisierung (IQ1_S ~130 GB) erfordert Multi-GPU oder Apple M3 Ultra 192 GB. Für Privatnutzung ist die offizielle API die praktikabelste Option.
· Die Distilled-Modelle (1.5B bis 32B) sind hingegen vollständig Consumer-tauglich — sie beherrschen Thinking/Reasoning auf Niveau, das deutlich über ihren Parameterzahlen liegt, weil das Verhalten direkt aus R1 (671 B) destilliert wurde.
· Die aktiven Parameter der Vollmodelle betragen nur 37 B pro Forward-Pass (MoE-Routing) — bei ausreichend VRAM ermöglicht das eine vergleichsweise hohe Inferenzgeschwindigkeit trotz 671 B Gesamtparameter.
· Multi-head Latent Attention (MLA) reduziert den KV-Cache-Footprint erheblich gegenüber klassischer Multi-Head-Attention — besonders vorteilhaft bei langen Reasoning-Chains und 128k-Kontext.
· DeepSeek R1 wurde ausschließlich per Reinforcement Learning (GRPO) trainiert, ohne überwachtes Fine-Tuning (SFT) in der ersten Phase — ein für Open-Source ungewöhnlicher Trainingsansatz.
· V3 0324 (März 2025): Drop-in-Update mit gleicher Architektur, deutlich verbesserten Coding- und Mathematik-Fähigkeiten.
· V3.1 (Aug. 2025): Hybridmodell — Thinking-Modus ist schaltbar, ohne zwei separate Modelle laden zu müssen.
· Multi-Token Prediction (MTP) beschleunigt den Durchsatz bei Server-Deployments — nicht alle Inference-Engines unterstützen dies vollständig.
· FP8 ist die von DeepSeek empfohlene Referenz-Precision (~671 GB VRAM, 8× H100 80 GB). vLLM unterstützt neben NVIDIA CUDA auch AMD ROCm (MI300X/MI325X) für Multi-GPU-Setups.
· Distilled 32B (Qwen-Basis): Auf einer 16-GB-GPU läuft Q4_K_M (~20 GB) nur mit knappem Puffer — langer Reasoning-Kontext kann zum Überlauf führen; 24 GB empfohlen.
· Lizenz: MIT — keine proprietären Nutzungsbeschränkungen für alle V3- und R1-Varianten (inkl. Distilled).