BAE News
Live
KIpositive19. Mai 2026

Google präsentiert Gemini Omni: Multimodales KI-Modell erzeugt Video aus Bild, Ton und Text

TechCrunchgoogle-deepmind

KI-Zusammenfassung

Google hat auf der I/O-Konferenz Gemini Omni vorgestellt, eine neue Familie multimodaler Modelle, die laut CEO Sundar Pichai "aus jeder Eingabe alles erstellen" können. Der erste Anwendungsbereich ist die Videogenerierung: Nutzer können Bilder, Audio, Video und Text kombinieren, wobei Omni über alle Eingaben hinweg Schlussfolgerungen zieht und kohärente, qualitativ hochwertige Videos mit Verständnis für Physik, Kultur und Wissenschaft erzeugt. Das Modell erlaubt zudem die Bildbearbeitung per einfachem Textbefehl. Google-DeepMind-Produktmanagerin Nicole Brichtova betonte, dass Omni mehr als ein Update für das bestehende Videomodell Veo sei; es vereine die Intelligenz von Gemini mit den Rendering-Fähigkeiten der Medienmodelle. DeepMind-Technologiechef Koray Kavukcuoglu demonstrierte, wie Omni aus dem Prompt "a claymation explainer of protein folding" ein Stopp-Motion-Erklärvideo mit passendem Voice-over generierte. Langfristig soll Omni auch Bilder aus Audio oder Audio aus Video erzeugen können.

Verwandte Artikel