Gemini Omni je nový videonástroj Googlu, generuje záběry z čehokoli

Společnost Google odhalila generativní model Gemini Omni, který akceptuje obraz, zvuk, video i textový popis a vrací hotové video v profesionální kvalitě. Model zpracovává všechny vstupy najednou jako jeden kontext, místo aby každý zpracovával zvlášť. Změna oproti starším video generátorům je zásadní právě v multimodalitě, ne jen v délce nebo rozlišení výstupu.

Gemini Omni rozumí fyzice scén, gravitaci a pohybu objektů, díky čemuž se vygenerované záběry vyhýbají typickým artefaktům starších modelů. Pokud uživatel popíše scénu auta projíždějícího zatáčkou v dešti, model spočítá realisticky stříkající vodu, smyk gum a chování světlometů na mokrém asfaltu jako fyzikálně provázanou událost. Stejně tak rozezná, kdy postava hodí předmět a kdy ho upustí.

Zdroj: Rubaitul Azad / Unsplash Google Hry přechází na konverzaci s AI, vyhledávání aplikací mění přirozený jazyk

Klíčový praktický posun přináší konverzační režim editace. Tvůrce nemusí znovu generovat celou scénu, pokud chce upravit detail. Stačí napsat, že kabát hlavní postavy má být tmavší a kočka v rohu záběru musí pryč, a Gemini Omni provede zásah s návazností na předchozí instrukce.

Předchozí model Googlu Veo 3.1 fungoval omezeněji. Akceptoval text a obrázky, výstup byl limitovaný kvalitou a kratšími sekvencemi. Gemini Omni rozšiřuje vstupní možnosti i délku scén, navíc bezešvě navazuje úpravy.

Novinky pro tvůrce obohacuje generování digitálních avatarů z reálného hlasu a vzhledu uživatele. Google deklaruje politiku ochrany před zneužitím, výstupy nesou vodoznak SynthID, který systém AI při dalším skenování rozpozná.