Qwen 3.5 & 3.6

Alibaba Cloud / Qwen Team · Apache 2.0 · 262k Kontextfenster · Hybrid Attention

qwen35 MoE verfügbar Thinking Mode Function Calling Vision (MoE) GatedDeltaNet

Architektur & Parameter

Dense Qwen 3.5 9B

Parameter gesamt9 B

ArchitekturDense

Layer32

Kontextfenster262k Token

AttentionStandard

ModalitätenText

LizenzApache 2.0

Dense Qwen 3.5 27B

Parameter gesamt~28 B

ArchitekturDense

Layer64

Kontextfenster262k Token

AttentionStandard

ModalitätenText

LizenzApache 2.0

Dense GatedDeltaNet Qwen 3.6 27B

Parameter gesamt~28 B

ArchitekturDense · Hybrid

Kontextfenster262k Token

AttentionHybrid (GatedDeltaNet)

ModalitätenText · Bild

LizenzApache 2.0

MoE 8/256 Qwen 3.5 / 3.6 · 35B-A3B

Aktive Parameter3 B

Parameter gesamt~36 B

Experten8 aktiv / 256 + 1 shared

Layer40

Kontextfenster262k Token

AttentionHybrid (75 % GatedDeltaNet)

ModalitätenText · Bild

LizenzApache 2.0

MoE Qwen 3.5 122B-A10B Server

Aktive Parameter10 B

Parameter gesamt~125 B

ArchitekturMoE

Kontextfenster262k Token

VRAM Q4 (min.)~70 GB

ModalitätenText · Bild

EmpfehlungMulti-GPU (A100/H100)

VRAM-Kompatibilität (Q4-Quantisierung)

Modell	Typ	VRAM Q4	6 GB VRAMz. B. NVIDIA A2000	12 GB VRAMz. B. RTX 3060 Ti	16 GB VRAMz. B. RTX 4060 Ti	24 GB VRAMz. B. RTX 3090 / 4090	CPU · 16 GB RAMz. B. Ryzen 7 (AM4)
Qwen 3.5 9B	Dense	~5–6 GB	KomfortabelPasst vollständig in VRAM; ~1–2 GB Puffer	Sehr komfortabelViel Platz für langen Kontext	Sehr komfortabelMassig Reserven; höhere Quant möglich	Ultra-LeichtMassig Platz für parallele Agenten oder Q8	Gut nutzbar~10–14 Tok/Sek · Passt komplett in RAM
Qwen 3.5 27B	Dense	~17 GB	Nicht möglichVRAM viel zu klein	Nicht möglichAuch Q3 (~14 GB) passt kaum; kein Puffer	Q3 möglichQ3_K_M (~14 GB) passt; Q4 (~17 GB) läuft über	Sehr gut (Q4–Q6)~34 Tok/Sek · Komfortabel; Q6 empfohlen	Nicht möglichModell sprengt 16 GB RAM → starker Swap
Qwen 3.6 27B	Dense	~17 GB	Nicht möglichVRAM viel zu klein	Nicht möglichQ3 (~14 GB) passt kaum; kein Puffer	Q3 möglichQ3_K_M (~14 GB) passt; Q4 (~17 GB) läuft über	Sehr gut (Q4–Q6)~34 Tok/Sek · Hybrid-Attn · Bild unterstützt	Nicht möglichModell sprengt 16 GB RAM
Qwen 3.5 / 3.6 · 35B-A3B	MoE 8/256	~22 GB	Nicht möglichVRAM viel zu klein	Nicht möglichVRAM zu klein für Q3+	Nicht möglichOffload möglich, aber <5 Tok/Sek	Empfohlen (Q4)~111 Tok/Sek · 3× schneller als 27B Dense dank MoE	Nicht möglichSprengt 16 GB RAM vollständig
Qwen 3.5 122B-A10B	MoE	~70 GB	Nicht möglich—	Nicht möglich—	Nicht möglich—	Nicht möglichBraucht Multi-GPU: 4× A100 / 2× H100	Nicht möglich—

Kontextfenster-Skalierung (VRAM-Wachstum bei Q4_K_M)

Modell	4k Token	32k Token	128k Token	262k Token	Wachstumsverhalten
Qwen 3.5 27B	~17 GB	~19 GB	~27 GB	~33 GB	Lineares Wachstum – Standard-Attention baut vollen KV-Cache auf
Qwen 3.6 27B	~17 GB	~18 GB	~20 GB	~22 GB	Geringes Wachstum – Hybrid GatedDeltaNet reduziert KV-Cache-Aufbau
Qwen 3.5 / 3.6 · 35B-A3B	~22 GB	~23 GB	~24 GB	~25 GB	Minimales Wachstum – 75 % der Layer nutzen GatedDeltaNet (kein KV-Cache)

Fähigkeiten & Features

Modell	Text	Bild	Thinking	Function Calling	Hybrid Attn.	Kontext	Speed (RTX 3090)
Qwen 3.5 9B	✓	✗	✓	✓	✗	262k	~60–80 Tok/Sek
Qwen 3.5 27B	✓	✗	✓	✓	✗	262k	~34 Tok/Sek
Qwen 3.6 27B	✓	✓	✓	✓	✓	262k	~34 Tok/Sek
Qwen 3.5 / 3.6 · 35B-A3B	✓	✓	✓	✓	✓	262k	~111 Tok/Sek
Qwen 3.5 122B-A10B	✓	✓	✓	✓	✓	262k	Multi-GPU nötig

Qwen 3.5 vs. Qwen 3.6: Qwen 3.6 erweitert die Serie um zwei neue Varianten: Qwen 3.6 27B (Dense mit Hybrid GatedDeltaNet + Standard-Attention, multimodal) sowie Qwen 3.6 35B-A3B (MoE, baugleich mit Qwen 3.5 35B-A3B). Qwen 3.6-27B unterscheidet sich von Qwen 3.5-27B durch Hybrid-Attention und Bildunterstützung. GGUF-Dateien aller Varianten verwenden die Architektur-Kennung qwen35.

GatedDeltaNet (Hybrid Attention): 75 % der Layer im MoE-Modell nutzen lineares GatedDeltaNet statt Standard-Attention. Dadurch entfällt der KV-Cache für diese Layer – das VRAM-Wachstum bei langen Kontexten ist minimal: von 4k auf 262k Token nur +3 GB, beim Dense-Modell hingegen +16 GB.

Quantisierung: Q3 und Q4 liefern laut Benchmarks nahezu identische Qualität. Unter Q2 bricht die Ausgabequalität spürbar ein – Q2_K vermeiden. Empfehlung für 24 GB: Q4_K_M oder UD-Q4_K_XL (Unsloth-Format).

VRAM-Werte gelten ohne KV-Cache (Basis-Kontext 4k). Speed-Werte gemessen auf RTX 3090 mit Q4_K_M via llama.cpp.