AntwortenVeröffentlichtvor 2 MonatenLast edited letzten Monat24 Quellen

Gemini Omni: Googles neue multimodale Video‑KI von der I/O 2026

Google präsentierte auf der I/O 2026 Gemini Omni – eine neue multimodale KI, die Videos aus Text, Bildern, Audio und Videomaterial erzeugen kann; das erste Modell der Reihe heißt Gemini Omni Flash und wird seit dem 19. Im Gegensatz zum früheren Videomodell Veo ist Gemini Omni ein einheitliches Foundation‑Modell, das...

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

Illustration representing Google Gemini Omni generating video from text, image, audio and video inputs — What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com

Auf der Entwicklerkonferenz Google I/O 2026 hat Google eine neue Generation von KI‑Modellen vorgestellt: Gemini Omni. Das System soll verschiedene Medienarten gleichzeitig verstehen und daraus Inhalte erzeugen – beginnend mit Video aus gemischten Eingaben wie Text, Bildern, Audio und vorhandenen Videos. Die erste Version, Gemini Omni Flash, wurde direkt am Tag der Ankündigung veröffentlicht und in mehrere Google‑Produkte integriert.

Im Kern kombiniert Omni zwei bisher getrennte Welten: Geminis Reasoning‑Fähigkeiten und generative Medienmodelle für kreative Inhalte.

Was Gemini Omni ist

Gemini Omni ist eine multimodale Modellfamilie, die Inhalte aus nahezu beliebigen Kombinationen von Eingaben erzeugen kann. Google beschreibt das Konzept als Verbindung von logischem Verständnis und kreativer Mediengenerierung.

Zum Start liegt der Fokus auf Videogenerierung:

Nutzer können Text, Bilder, Audio und Video gleichzeitig als Prompt verwenden.
Das System erzeugt daraus hochwertige Videos, die auf Geminis Weltwissen basieren.
Szenen lassen sich im Gespräch bearbeiten, etwa um Objekte, Stil oder Handlung per natürlicher Sprache zu verändern.

Google zufolge wurde das Modell so trainiert, dass es Bewegungen, physikalische Abläufe und Objektinteraktionen realistischer simuliert – ein typischer Schwachpunkt früherer KI‑Video‑Generatoren.

Langfristig soll Omni nicht nur Videos erzeugen. Google plant, dass das Modell künftig auch Bilder, Audio oder Text direkt aus multimodalen Eingaben generieren kann.

Unterschied zwischen Gemini Omni und Veo

Vor Omni setzte Google bei generativen Videos hauptsächlich auf das Modell Veo.

Der Unterschied liegt vor allem im Konzept:

Veo

Spezielles Modell nur für Videoerstellung
Teil einer getrennten Medien‑Generierungs‑Pipeline

Gemini Omni

Ein einheitliches multimodales Foundation‑Modell
Unterstützt Text‑, Bild‑, Audio‑ und Videoeingaben gleichzeitig
Verbindet Geminis Reasoning‑Fähigkeiten mit generativer Medienproduktion

Damit bündelt Omni Funktionen, die zuvor auf mehrere Tools verteilt waren – darunter Video‑Modelle wie Veo und andere Medien‑Generatoren.

Das Ziel: eine KI, die Kontext über mehrere Medien hinweg versteht und komplexe kreative Workflows in einer einzigen Umgebung ermöglicht.

Was Gemini Omni Flash kann

Gemini Omni Flash ist das erste veröffentlichte Modell der neuen Omni‑Reihe.

Es kann mehrere Eingabearten in einem Prompt kombinieren:

Text
Bilder
Audio
Video

Aus diesen Daten erstellt das Modell realistische Videosequenzen, die anschließend dialogbasiert bearbeitet werden können.

Google demonstrierte unter anderem folgende Anwendungen:

Videoszenen aus Textbeschreibung plus Referenzbildern erzeugen
Hochgeladenes Videomaterial per Sprachbefehl verändern
Szenen mit gesprochenen Anweisungen und visuellen Assets neu gestalten

Durch ein besseres Verständnis von Bewegung und physikalischen Zusammenhängen sollen die Ergebnisse kohärenter und realistischer wirken als bei früheren KI‑Videomodellen.

Verfügbarkeit und Preisstufen

Google begann den Rollout von Gemini Omni Flash am 19. Mai 2026, dem Tag der I/O‑Keynote.

Zu den ersten Plattformen gehören:

Gemini‑App
Google Flow (Googles KI‑Studio für Kreativarbeit)
YouTube Shorts und YouTube Create für Content‑Creator

Innerhalb der Gemini‑Plattform hängt der Zugriff von Googles KI‑Abos ab. Unterstützte Tarife sind:

Google AI Plus
Google AI Pro
Google AI Ultra

Die Omni‑Funktionen sind in diesen Abonnements enthalten, wobei höhere Stufen größere Nutzungsgrenzen und zusätzliche Funktionen bieten.

Auf der I/O 2026 stellte Google außerdem einen neuen AI‑Ultra‑Tarif für 100 US‑Dollar pro Monat vor, der sich besonders an Entwickler, technische Teams und professionelle Creator richtet.

SynthID: Wasserzeichen und KI‑Erkennung

Parallel zur Veröffentlichung neuer Generationsmodelle betont Google stärker das Thema Transparenz bei KI‑Inhalten.

Dafür nutzt das Unternehmen SynthID, ein System für unsichtbare digitale Wasserzeichen.

Diese Markierungen können in KI‑generierten Inhalten eingebettet werden, darunter:

Bilder
Videos
Audio
Texte

Die Wasserzeichen sind für Menschen unsichtbar, können aber von spezieller Software erkannt werden.

Integration in Google‑Produkte

Google erweitert die Erkennungsmöglichkeiten direkt in seine Plattformen. Neue Funktionen in Google Search und dem Chrome‑Browser sollen Nutzern helfen zu erkennen, ob Bilder online von einer KI erstellt oder bearbeitet wurden.

Kooperation mit anderen Unternehmen

Google baut außerdem ein breiteres Branchen‑Ökosystem rund um SynthID auf. Mehrere Firmen haben angekündigt, die Technologie ebenfalls zu verwenden, darunter:

OpenAI
Kakao
ElevenLabs
Nvidia

Damit soll ein gemeinsamer Standard zur Kennzeichnung von KI‑generierten Medien entstehen.

SynthID Detector

Mit dem SynthID Detector stellt Google zudem ein Prüf‑Portal bereit: Nutzer können Medien hochladen und automatisch überprüfen lassen, ob darin ein SynthID‑Wasserzeichen enthalten ist. Das hilft etwa Journalisten oder Forschern, die Herkunft digitaler Inhalte zu verifizieren.

Warum Gemini Omni wichtig ist

Mit Gemini Omni verfolgt Google eine strategische Veränderung bei KI‑Modellen.

Statt getrennte Systeme für Text, Bilder oder Video zu betreiben, entwickelt das Unternehmen einheitliche multimodale Modelle, die Inhalte über verschiedene Formate hinweg verstehen und erzeugen können.

Der erste Schritt ist Videogenerierung aus gemischten Eingaben. Langfristig soll Omni jedoch ein System werden, das jede Art von Ausgabe aus jeder Art von Eingabe erzeugen kann – ein Ansatz, der laut Google einen großen Fortschritt im sogenannten „World Modeling“ und in der generativen Medienproduktion darstellt.

Parallel dazu versucht das Unternehmen, mit Technologien wie SynthID mehr Transparenz und Nachvollziehbarkeit für KI‑Inhalte zu schaffen – ein zentrales Thema im Umgang mit Deepfakes und generativer Medien‑KI.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Gemini Omni: Googles neue multimodale Video‑KI von der I/O 2026“?

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Parallel erweitert Google sein SynthID‑System: Unsichtbare Wasserzeichen markieren KI‑Inhalte, während neue Tools in Chrome, Google Search und bei Partnern helfen sollen, generierte Medien zu erkennen.[17][24][41]

Quellen

← Back to Trending