KIpositive19. Mai 2026

Google präsentiert Gemini Omni: Multimodales KI-Modell erzeugt Video aus Bild, Ton und Text

TechCrunchgoogle-deepmind

KI-Zusammenfassung

Google hat auf der I/O-Konferenz Gemini Omni vorgestellt, eine neue Familie multimodaler Modelle, die laut CEO Sundar Pichai "aus jeder Eingabe alles erstellen" können. Der erste Anwendungsbereich ist die Videogenerierung: Nutzer können Bilder, Audio, Video und Text kombinieren, wobei Omni über alle Eingaben hinweg Schlussfolgerungen zieht und kohärente, qualitativ hochwertige Videos mit Verständnis für Physik, Kultur und Wissenschaft erzeugt. Das Modell erlaubt zudem die Bildbearbeitung per einfachem Textbefehl. Google-DeepMind-Produktmanagerin Nicole Brichtova betonte, dass Omni mehr als ein Update für das bestehende Videomodell Veo sei; es vereine die Intelligenz von Gemini mit den Rendering-Fähigkeiten der Medienmodelle. DeepMind-Technologiechef Koray Kavukcuoglu demonstrierte, wie Omni aus dem Prompt "a claymation explainer of protein folding" ein Stopp-Motion-Erklärvideo mit passendem Voice-over generierte. Langfristig soll Omni auch Bilder aus Audio oder Audio aus Video erzeugen können.

Originalquelle: TechCrunch

Google präsentiert Gemini Omni: Multimodales KI-Modell erzeugt Video aus Bild, Ton und Text

KI-Zusammenfassung

Verwandte Artikel

Google bringt generative KI-Tools Nano Banana und Veo auf Google TV

Google startet KI-Design-App Pics — Frontalangriff auf Canva

Google integriert Google Photos in Gemini für personalisierte KI-Bilder

Google verbindet Gemini Chatbot mit privaten Google Photos über Nano Banana

YouTube führt KI-gestützte Suche "Ask YouTube" ein