← VRAM Calculator

Qwen 3.5 & 3.6

Alibaba Cloud / Qwen Team · Apache 2.0 · 262k Kontextfenster · Hybrid Attention

qwen35 MoE verfügbar Thinking Mode Function Calling Vision (MoE) GatedDeltaNet

Architektur & Parameter

Dense Qwen 3.5 9B
Parameter gesamt9 B
ArchitekturDense
Layer32
Kontextfenster262k Token
AttentionStandard
ModalitätenText
LizenzApache 2.0
Dense Qwen 3.5 27B
Parameter gesamt~28 B
ArchitekturDense
Layer64
Kontextfenster262k Token
AttentionStandard
ModalitätenText
LizenzApache 2.0
Dense GatedDeltaNet Qwen 3.6 27B
Parameter gesamt~28 B
ArchitekturDense · Hybrid
Kontextfenster262k Token
AttentionHybrid (GatedDeltaNet)
ModalitätenText · Bild
LizenzApache 2.0
MoE 8/256 Qwen 3.5 / 3.6 · 35B-A3B
Aktive Parameter3 B
Parameter gesamt~36 B
Experten8 aktiv / 256 + 1 shared
Layer40
Kontextfenster262k Token
AttentionHybrid (75 % GatedDeltaNet)
ModalitätenText · Bild
LizenzApache 2.0
MoE Qwen 3.5 122B-A10B Server
Aktive Parameter10 B
Parameter gesamt~125 B
ArchitekturMoE
Kontextfenster262k Token
VRAM Q4 (min.)~70 GB
ModalitätenText · Bild
EmpfehlungMulti-GPU (A100/H100)

VRAM-Kompatibilität (Q4-Quantisierung)

Modell Typ VRAM Q4 6 GB VRAMz. B. NVIDIA A2000 12 GB VRAMz. B. RTX 3060 Ti 16 GB VRAMz. B. RTX 4060 Ti 24 GB VRAMz. B. RTX 3090 / 4090 CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Qwen 3.5 9B Dense ~5–6 GB KomfortabelPasst vollständig in VRAM; ~1–2 GB Puffer Sehr komfortabelViel Platz für langen Kontext Sehr komfortabelMassig Reserven; höhere Quant möglich Ultra-LeichtMassig Platz für parallele Agenten oder Q8 Gut nutzbar~10–14 Tok/Sek · Passt komplett in RAM
Qwen 3.5 27B Dense ~17 GB Nicht möglichVRAM viel zu klein Nicht möglichAuch Q3 (~14 GB) passt kaum; kein Puffer Q3 möglichQ3_K_M (~14 GB) passt; Q4 (~17 GB) läuft über Sehr gut (Q4–Q6)~34 Tok/Sek · Komfortabel; Q6 empfohlen Nicht möglichModell sprengt 16 GB RAM → starker Swap
Qwen 3.6 27B Dense ~17 GB Nicht möglichVRAM viel zu klein Nicht möglichQ3 (~14 GB) passt kaum; kein Puffer Q3 möglichQ3_K_M (~14 GB) passt; Q4 (~17 GB) läuft über Sehr gut (Q4–Q6)~34 Tok/Sek · Hybrid-Attn · Bild unterstützt Nicht möglichModell sprengt 16 GB RAM
Qwen 3.5 / 3.6 · 35B-A3B MoE 8/256 ~22 GB Nicht möglichVRAM viel zu klein Nicht möglichVRAM zu klein für Q3+ Nicht möglichOffload möglich, aber <5 Tok/Sek Empfohlen (Q4)~111 Tok/Sek · 3× schneller als 27B Dense dank MoE Nicht möglichSprengt 16 GB RAM vollständig
Qwen 3.5 122B-A10B MoE ~70 GB Nicht möglich Nicht möglich Nicht möglich Nicht möglichBraucht Multi-GPU: 4× A100 / 2× H100 Nicht möglich

Kontextfenster-Skalierung (VRAM-Wachstum bei Q4_K_M)

Modell 4k Token 32k Token 128k Token 262k Token Wachstumsverhalten
Qwen 3.5 27B ~17 GB ~19 GB ~27 GB ~33 GB Lineares Wachstum – Standard-Attention baut vollen KV-Cache auf
Qwen 3.6 27B ~17 GB ~18 GB ~20 GB ~22 GB Geringes Wachstum – Hybrid GatedDeltaNet reduziert KV-Cache-Aufbau
Qwen 3.5 / 3.6 · 35B-A3B ~22 GB ~23 GB ~24 GB ~25 GB Minimales Wachstum – 75 % der Layer nutzen GatedDeltaNet (kein KV-Cache)

Fähigkeiten & Features

Modell Text Bild Thinking Function Calling Hybrid Attn. Kontext Speed (RTX 3090)
Qwen 3.5 9B 262k ~60–80 Tok/Sek
Qwen 3.5 27B 262k ~34 Tok/Sek
Qwen 3.6 27B 262k ~34 Tok/Sek
Qwen 3.5 / 3.6 · 35B-A3B 262k ~111 Tok/Sek
Qwen 3.5 122B-A10B 262k Multi-GPU nötig
Qwen 3.5 vs. Qwen 3.6: Qwen 3.6 erweitert die Serie um zwei neue Varianten: Qwen 3.6 27B (Dense mit Hybrid GatedDeltaNet + Standard-Attention, multimodal) sowie Qwen 3.6 35B-A3B (MoE, baugleich mit Qwen 3.5 35B-A3B). Qwen 3.6-27B unterscheidet sich von Qwen 3.5-27B durch Hybrid-Attention und Bildunterstützung. GGUF-Dateien aller Varianten verwenden die Architektur-Kennung qwen35.

GatedDeltaNet (Hybrid Attention): 75 % der Layer im MoE-Modell nutzen lineares GatedDeltaNet statt Standard-Attention. Dadurch entfällt der KV-Cache für diese Layer – das VRAM-Wachstum bei langen Kontexten ist minimal: von 4k auf 262k Token nur +3 GB, beim Dense-Modell hingegen +16 GB.

Quantisierung: Q3 und Q4 liefern laut Benchmarks nahezu identische Qualität. Unter Q2 bricht die Ausgabequalität spürbar ein – Q2_K vermeiden. Empfehlung für 24 GB: Q4_K_M oder UD-Q4_K_XL (Unsloth-Format).

VRAM-Werte gelten ohne KV-Cache (Basis-Kontext 4k). Speed-Werte gemessen auf RTX 3090 mit Q4_K_M via llama.cpp.