BAE News
Live
KIpositivevor 4 Std

Google beschleunigt Gemma-4-Modelle mit Multi-Token-Vorhersage um Faktor drei

Ars Technicagpu-gemma

KI-Zusammenfassung

Google hat experimentelle "Multi-Token Prediction"-Modelle (MTP) für seine Open-Source-KI Gemma 4 veröffentlicht, die die Generierungsgeschwindigkeit durch spekulative Dekodierung um bis zu das Dreifache steigern können. Die Gemma-4-Modelle basieren auf derselben Technologie wie Googles frontier-KI Gemini, sind aber für den lokalen Betrieb optimiert — das größte Modell läuft auf einem einzelnen High-End-Beschleuniger in voller Präzision, quantisiert sogar auf einer Consumer-GPU. Mit der Umstellung der Lizenz auf Apache 2.0 hat Google zudem deutlich freiere Nutzungsbedingungen geschaffen als bei früheren Gemma-Versionen. Die MTP-Drafter sollen die inhärenten Hardware-Limitierungen lokaler KI-Systeme ausgleichen, indem sie zukünftige Token vorhersagen und so die sequenzielle Generierung beschleunigen.

Verwandte Artikel