DeepSeek AI · Dense Distilled & MoE 8/128 · 128k Kontext · 129k Vokabular · MIT-Lizenz
| Modell | Typ | VRAM Q4 | 6 GB VRAMz. B. NVIDIA A2000 | 12 GB VRAMz. B. RTX 3060 Ti | 16 GB VRAMz. B. RTX 4060 Ti | 24 GB VRAMz. B. Intel Arc Pro B60 | CPU · 16 GB RAMz. B. Ryzen 7 (AM4) |
|---|---|---|---|---|---|---|---|
| DeepSeek V3 (671 B) | MoE 8/128 | ~400 GB | Nicht möglich~65× größer als VRAM | Nicht möglich~33× größer als VRAM | Nicht möglich~25× größer als VRAM | Nicht möglich~17× größer als VRAM | Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM |
| DeepSeek V3 0324 (671 B) | MoE 8/128 | ~400 GB | Nicht möglich~65× größer als VRAM | Nicht möglich~33× größer als VRAM | Nicht möglich~25× größer als VRAM | Nicht möglich~17× größer als VRAM | Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM |
| DeepSeek V3.1 (671 B) | MoE 8/128 | ~400 GB | Nicht möglich~65× größer als VRAM | Nicht möglich~33× größer als VRAM | Nicht möglich~25× größer als VRAM | Nicht möglich~17× größer als VRAM | Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM |
| DeepSeek R1 (671 B) | MoE 8/128 | ~400 GB | Nicht möglich~65× größer als VRAM | Nicht möglich~33× größer als VRAM | Nicht möglich~25× größer als VRAM | Nicht möglich~17× größer als VRAM | Nicht möglichKleinste Quant (IQ1_S) = 130+ GB RAM |
| Modell | Typ | VRAM Q4 | 6 GB VRAMz. B. NVIDIA A2000 | 12 GB VRAMz. B. RTX 3060 Ti | 16 GB VRAMz. B. RTX 4060 Ti | 24 GB VRAMz. B. Intel Arc Pro B60 | CPU · 16 GB RAMz. B. Ryzen 7 (AM4) |
|---|---|---|---|---|---|---|---|
| R1-Distill-Qwen-1.5B | Dense | ~1 GB | Ultra-LeichtLäuft auf nahezu jeder GPU; massig Platz für langen Kontext | Ultra-LeichtRiesiger Puffer für parallele Slots | Ultra-LeichtRiesiger Puffer für parallele Slots | Ultra-LeichtRiesiger Puffer für parallele Slots | Sehr gut~20–30 Tok/Sek · Passt problemlos in RAM |
| R1-Distill-Qwen-7B | Dense | ~4–5 GB | PerfektPasst gut; ~1–2 GB Puffer für Reasoning-Kontext | Sehr komfortabelViel Platz für langen Thinking-Kontext | Ultra-komfortabelMassig Puffer für lange Reasoning-Chains | Ultra-komfortabelIdeal für produktive Nutzung | Gut nutzbar~12–15 Tok/Sek · Passt komplett in RAM |
| R1-Distill-Llama-8B | Dense | ~5 GB | GrenzbereichPasst knapp; kaum Puffer für langen Thinking-Kontext | KomfortabelAusreichend Puffer für Reasoning-Chains | Sehr komfortabelViel Reserven für langen Kontext | Ultra-komfortabelIdeal für produktive Nutzung | Gut nutzbar~10–13 Tok/Sek · Passt komplett in RAM |
| R1-Distill-Qwen-14B | Dense | ~9 GB | Nicht möglichVRAM zu klein | GrenzbereichPasst knapp; kaum Puffer für lange Reasoning-Chains | KomfortabelGuter Puffer für Thinking-Kontext | Sehr komfortabelRiesiger Puffer; Sweet-Spot für Reasoning | Akzeptabel~6–9 Tok/Sek · Belegt halben RAM; träge bei 128k |
| R1-Distill-Qwen-32B | Dense | ~20 GB | Nicht möglichVRAM viel zu klein | Nicht möglichVRAM zu klein | Knapp (Limit)Passt gerade so; kaum Puffer für Reasoning-Kontext | GrenzbereichPasst, aber langer Thinking-Kontext droht Überlauf | Nicht möglichÜberschreitet 16 GB RAM; System swappt |
| R1-Distill-Llama-70B | Dense | ~42 GB | Nicht möglichVRAM viel zu klein | Nicht möglichVRAM viel zu klein | Nicht möglichVRAM viel zu klein | Nicht möglichBenötigt 2× 24 GB GPU oder 48 GB+ Unified RAM | Nicht möglichSprengt Consumer-RAM; 64 GB+ RAM notwendig |
| Modell | Text | Code | Thinking | Function Calling | Multilingual | Kontext | Typ |
|---|---|---|---|---|---|---|---|
| DeepSeek V3 | ✓ | ✓ | ✗ | ✓ | ✓ | 128k | Vollmodell |
| DeepSeek V3 0324 | ✓ | ✓ | ✗ | ✓ | ✓ | 128k | Vollmodell |
| DeepSeek V3.1 | ✓ | ✓ | ~ | ✓ | ✓ | 128k | Vollmodell |
| DeepSeek R1 | ✓ | ✓ | ✓ | ~ | ✓ | 128k | Vollmodell |
| R1-Distill-Qwen-1.5B | ✓ | ~ | ✓ | ✗ | ~ | 128k | Distilled |
| R1-Distill-Qwen-7B | ✓ | ✓ | ✓ | ✗ | ✓ | 128k | Distilled |
| R1-Distill-Llama-8B | ✓ | ✓ | ✓ | ✗ | ✓ | 128k | Distilled |
| R1-Distill-Qwen-14B | ✓ | ✓ | ✓ | ✗ | ✓ | 128k | Distilled |
| R1-Distill-Qwen-32B | ✓ | ✓ | ✓ | ✗ | ✓ | 128k | Distilled |
| R1-Distill-Llama-70B | ✓ | ✓ | ✓ | ✗ | ✓ | 128k | Distilled |
| Format | Variante | VRAM / RAM | Mindest-Hardware | Hinweis |
|---|---|---|---|---|
| GGUF · Unsloth Dynamic | UD-IQ1_S | ~130 GB | 2× H100 80 GB oder 192 GB Unified RAM | Kleinstes nutzbares GGUF; stark lossy |
| GGUF · Unsloth Dynamic | UD-IQ2_XXS | ~190 GB | 3× A100 80 GB oder 192+ GB Unified RAM | Bessere Qualität als IQ1 |
| GGUF · Unsloth Dynamic | UD-Q2_K_XL | ~240 GB | 3× A100 80 GB oder 256+ GB Unified RAM | |
| GGUF | Q4_K_M | ~400 GB | 5× A100 80 GB | Standard-Empfehlung für Multi-GPU |
| FP8 (offiziell) | — | ~671 GB | 8–9× H100 80 GB | Referenz-Precision von DeepSeek; MTP-fähig |
| GGUF | Q8_0 | ~716 GB | 9× A100 80 GB | |
| BF16 | — | ~1.342 GB | 17× H100 80 GB | Volles Gewicht · nur Forschung / Datacenter |
| Modell | Format | Variante | VRAM | Hinweis |
|---|---|---|---|---|
| Qwen-1.5B | GGUF | Q4_K_M | ~1 GB | Läuft auf jeder modernen GPU |
| Qwen-7B | GGUF | Q4_K_M | ~4,5 GB | Empfohlen für 6-GB-GPUs |
| Qwen-7B | GGUF | Q8_0 | ~7 GB | |
| Llama-8B | GGUF | Q4_K_M | ~5 GB | Empfohlen für 6–8 GB VRAM |
| Llama-8B | GGUF | Q8_0 | ~8 GB | |
| Qwen-14B | GGUF | Q4_K_M | ~9 GB | Sweet-Spot für 12-GB-GPUs |
| Qwen-14B | GGUF | Q8_0 | ~15 GB | |
| Qwen-32B | GGUF | Q4_K_M | ~20 GB | Benötigt 16–24 GB VRAM |
| Qwen-32B | GGUF | Q8_0 | ~34 GB | |
| Llama-70B | GGUF | Q4_K_M | ~42 GB | 2× 24 GB GPU oder 48 GB+ Unified RAM |
| Llama-70B | GGUF | Q8_0 | ~75 GB | Nur Multi-GPU oder 80 GB+ Mac |
| Kontextlänge | KV-Cache (BF16) | KV-Cache (Q8) | Gesamt VRAM ca. |
|---|---|---|---|
| 4 K Token | ~1,2 GB | ~0,6 GB | ~401 GB |
| 16 K Token | ~4,8 GB | ~2,4 GB | ~405 GB |
| 128 K Token | ~38 GB | ~19 GB | ~438 GB |