Společnost Google odhalila generativní model Gemini Omni, který akceptuje obraz, zvuk, video i textový popis a vrací hotové video v profesionální kvalitě. Model zpracovává všechny vstupy najednou jako jeden kontext, místo aby každý zpracovával zvlášť. Změna oproti starším video generátorům je zásadní právě v multimodalitě, ne jen v délce nebo rozlišení výstupu.

Gemini Omni rozumí fyzice scén, gravitaci a pohybu objektů, díky čemuž se vygenerované záběry vyhýbají typickým artefaktům starších modelů. Pokud uživatel popíše scénu auta projíždějícího zatáčkou v dešti, model spočítá realisticky stříkající vodu, smyk gum a chování světlometů na mokrém asfaltu jako fyzikálně provázanou událost. Stejně tak rozezná, kdy postava hodí předmět a kdy ho upustí.

Klíčový praktický posun přináší konverzační režim editace. Tvůrce nemusí znovu generovat celou scénu, pokud chce upravit detail. Stačí napsat, že kabát hlavní postavy má být tmavší a kočka v rohu záběru musí pryč, a Gemini Omni provede zásah s návazností na předchozí instrukce.

Předchozí model Googlu Veo 3.1 fungoval omezeněji. Akceptoval text a obrázky, výstup byl limitovaný kvalitou a kratšími sekvencemi. Gemini Omni rozšiřuje vstupní možnosti i délku scén, navíc bezešvě navazuje úpravy.

Novinky pro tvůrce obohacuje generování digitálních avatarů z reálného hlasu a vzhledu uživatele. Google deklaruje politiku ochrany před zneužitím, výstupy nesou vodoznak SynthID, který systém AI při dalším skenování rozpozná.