Dnešní umělá inteligence dokáže divy. Ukazují to i nejnovější systémy pro generaci obrázků na základě vloženého textu. Skvělým příkladem může být systém Imagen od Google nebo Craiyon, který si můžete i vyzkoušet. Oba dokáží věrně zachytit to, co napíšete, a některé výtvory byste měli problém od fotek rozeznat.

Jak to ale dělají? Na začátku text projde první neurální sítí. Ta se snaží pochopit jeho kontext a zachytit klíčová slova toho, co má na obrázku vykreslit. Jakmile počítač text pochopí, vygeneruje obrázek s pomocí generativní adverzní sítě. Kromě původního textu ale nelze výsledek nijak ovládat.

Právě to se snaží změnit Meta se svým systémem Make-a-Scene. Ten kromě vstupního textu do neurální sítě vkládá i člověkem nakreslený náčrt, podle kterého se poté při generování obrázku řídí. Podle CEO společnosti Marka Zucberberga by totiž „lidé měli mít možnost utvářet a kontrolovat obsah, který systém generuje“.

„Náš přístup ukazuje, jak mohou lidé pomocí textu i jednoduchých kreseb vyjádřit svou vizi s větší konkrétností, s využitím různých prvků, forem, uspořádání, hloubky, kompozic a struktur,“ řekl Zuckerberg. Příklady z nového systému Mety vidíte výše. Kdy či zda bude veřejnosti zpřístupněn, není jasné.