Umělá inteligence je parádní sluha a dnes už nám pomáhá na snad každém rohu. Dokáže zlepšit kvalitu fotografií, zvýšit počet snímků za sekundu ve hrách, opravovat chyby nebo pomáhat s učením. Je to s ní ale stejné jako s ohněm a současně dokáže být i velice zlý pán. A až trochu děsivě zní nová AI od Microsoftu, která se nazývá VALL-E a dokáže napodobovat hlasy.

Už to samo o sobě může ve spoustě lidech evokovat myšlenku, že se bude jednat to další nástroj, který pomůže tvorbě deepfaků. To, jak funguje VALL-E, je ale ve skutečnosti ještě trochu zajímavější. Údajně se totiž zvládne naučit hlas kteréhokoliv člověka, a to na základě pouhé třísekundové nahrávky, kde ona osoba hovoří.

VALL-E se současně snaží pracovat i s tónem, kterým daná osoba mluví. Úžasně zní například představa, že bychom se v budoucnu dočkali převodníku textu na řeč, který by byl perfektně schopen odhadnout, jakým tónem má určité pasáže přednést. Větu plnou nadávek by tak mohl odvykládat naštvaně, zatímco projev významného státníka vážným hlasem.

Jak už jsem ale naznačil, VALL-E může s sebou nést i určitá rizika. Nejenže bere v potaz hlas a emoční tón, ale také akustiku místnosti, a tak reálně hrozí, že se nějaké známé osobnosti vloží do úst něco nevhodného či kontroverzního, co by nikdy neřekla.

Umělá inteligence VALL-E byla trénována na 60 tisících hodin mluveného slova v anglickém jazyce od více než 7 tisících mluvčích. Zvukovou knihovnu LibriLight vytvořila společnost Meta a nahrávky pochází většinou z audioknih, které jsou dostupné skrze databázi LibriVox.

Vy sami se můžete podívat, jak funguje VALL-E v praxi. Pomocí tohoto odkazu se dostanete na webovou stránku, která slouží k demonstraci schopností této umělé inteligence. Najdete na ní několik krátkých textů a u každého z nich čtyři nahrávky. „Speaker Prompt“ představuje třísekundový záznam hlasu poskytnutý umělé inteligenci, „Ground Truth“ je nahrávka, jak mluvčí čte onen krátký text. „Baseline“ je příklad syntézy, za níž stojí běžný převodník textu na řeč a „VALL-E“ je produkt, za nímž stojí stejnojmenná AI.

Co na výsledky říkáte?