Zeigt den VRAM-Bedarf (Modellgewichte + KV-Cache) für LLM-Modelle in verschiedenen Quantisierungen und Kontextlängen.