Die Gemini Foundation hat mit XFP (Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation) ein neues Forschungspapier veröffentlicht, das einen grundlegend anderen Ansatz zur Gewichtskompression großer Sprachmodelle (LLMs) vorstellt.
Das Problem: Manuelle Bitraten-Wahl
Bisherige Quantisierungsverfahren erfordern, dass Anwender manuell eine Bitbreite wählen – etwa 4-Bit oder 8-Bit – und anschließend prüfen, ob die resultierende Modellqualität ausreichend ist. Dieser Trial-and-Error-Prozess ist zeitaufwendig und fehleranfällig, insbesondere bei modernen Mixture-of-Experts-Architekturen mit heterogenen Schichten.
Der XFP-Ansatz: Qualität zuerst
XFP kehrt dieses Paradigma um: Anstatt eine Bitbreite vorzugeben, definieren Nutzer ein Qualitätsziel auf Basis der Cosine Similarity pro Kanal. Das System bestimmt dann automatisch die optimale Codebook-Größe und das Outlier-Budget für jede Gewichtsmatrix. Dabei werden die Gewichte in zwei Komponenten zerlegt:
- Sparse FP16 Outlier Residual: Seltene, aber signifikante Ausreißer werden in voller Präzision gespeichert
- Dense Sub-Byte Index Tensor: Der Großteil der Gewichte wird in einem kompakten Codebook-Format abgelegt
Ergebnisse
Die Benchmarks zeigen überzeugende Resultate: Auf dem Modell Qwen3.5-122B erreicht XFP 138 Tokens pro Sekunde bei 94,49% Genauigkeit auf GSM8K – und übertrifft damit Marlin INT4 um 49% bei vergleichbarer Qualität.
Veröffentlichung und Zugang
Das vollständige Paper ist frei zugänglich auf arXiv:
XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference Thomas Witt, 2026. Report GS-TR-2026-001.
Das Paper steht unter der Creative Commons BY 4.0 Lizenz. Der zugehörige Quellcode ist auf GitHub verfügbar.
Einordnung
Mit XFP setzt die Gemini Foundation ihre Arbeit an offener, reproduzierbarer Forschung im Bereich maschinelles Lernen fort. Das Verfahren zeigt, dass qualitätsgesteuerte Kompression nicht nur möglich, sondern dem herkömmlichen Ansatz überlegen ist – ein Schritt hin zu demokratischerer Nutzung großer KI-Modelle auf handelsüblicher Hardware.