Zakladatel Arc Prize Foundation, François Chollet, opět vystavil současnou generaci AI modelů těžké zkoušce. V pondělí oznámil vydání nového testu ARC-AGI-2, jehož cílem je přesněji změřit všeobecnou inteligenci pokročilých AI systémů.

Z výsledků prvních pokusů je však jasné, že současné AI mají před sebou ještě pořádný kus práce. Nejlepší dostupné modely zaměřené na uvažování, jako OpenAI o1-pro či DeepSeek R1, totiž zvládly správně odpovědět pouze na 1–1,3 % otázek. Dokonce i nejnovější verze GPT-4.5 či Claude 3.7 Sonnet od Anthropic, které patří mezi nejsilnější na trhu, skončily na úrovni kolem pouhého jednoho procenta.

Novinkou v ARC-AGI-2 je kromě náročnosti úkolů především důraz na efektivitu řešení. Předchozí verze ARC-AGI-1 totiž umožňovala AI modelům dosahovat slušných výsledků jednoduše díky obrovskému výpočetnímu výkonu, což bylo podle Cholleta značné omezení původního testu.

Tentokrát Chollet a jeho tým nastavili podmínky tak, aby se AI musely vypořádat se zadáními kreativně a skutečně inteligentně. Kromě vydání samotného testu oznámila nadace Arc Prize také novou soutěž pro rok 2025. Vítězem se stane vývojář nebo tým, jehož AI model překoná hranici 85 % správných odpovědí.