KIpositivevor 4 Std

Google beschleunigt Gemma-4-Modelle mit Multi-Token-Vorhersage um Faktor drei

Ars Technicagpu-gemma

KI-Zusammenfassung

Google hat experimentelle "Multi-Token Prediction"-Modelle (MTP) für seine Open-Source-KI Gemma 4 veröffentlicht, die die Generierungsgeschwindigkeit durch spekulative Dekodierung um bis zu das Dreifache steigern können. Die Gemma-4-Modelle basieren auf derselben Technologie wie Googles frontier-KI Gemini, sind aber für den lokalen Betrieb optimiert — das größte Modell läuft auf einem einzelnen High-End-Beschleuniger in voller Präzision, quantisiert sogar auf einer Consumer-GPU. Mit der Umstellung der Lizenz auf Apache 2.0 hat Google zudem deutlich freiere Nutzungsbedingungen geschaffen als bei früheren Gemma-Versionen. Die MTP-Drafter sollen die inhärenten Hardware-Limitierungen lokaler KI-Systeme ausgleichen, indem sie zukünftige Token vorhersagen und so die sequenzielle Generierung beschleunigen.

Originalquelle: Ars Technica

Google beschleunigt Gemma-4-Modelle mit Multi-Token-Vorhersage um Faktor drei

KI-Zusammenfassung

Verwandte Artikel

Google Cloud teilt 8. TPU-Generation in Training- und Inference-Chips

Google launcht TPU 8t und 8i für Agent-basierte KI-Systeme

Google trennt KI-Training und Inferenz in neuer 8. TPU-Generation

Googles Gemini dringt in Gmail und Drive vor — Datenschutz-Opt-out führt in "Dark Patterns"

Google stellt Gemini Enterprise Agent Platform vor – Fokus auf IT-Teams