Ve vzácném projevu transparentnosti si OpenAI a Anthropic navzájem zkontrolovaly své AI modely, nedostatků je dost

Oznámení je o to překvapivější, že přichází jen pár týdnů po eskalaci napětí mezi oběma firmami. Anthropic na začátku srpna zablokoval přístup OpenAI ke svým nástrojům kvůli obviněním z porušování podmínek. Současná spolupráce je tak vnímána jako snaha o deeskalaci a signál, že bezpečnostní rizika jsou pro obě firmy vyšší prioritou než obchodní spory.

Analýza společnosti Anthropic se zaměřila na náchylnost modelů OpenAI k podlézavosti (sycophancy) a potenciálnímu zneužití. Zpráva identifikovala možné problémy u modelů GPT-4o a GPT-4.1. Problém s přehnanou úslužností se navíc v určité míře projevil u většiny testovaných modelů OpenAI.

Testování ze strany OpenAI se soustředilo na odolnost modelů Claude proti obcházení bezpečnostních pravidel (jailbreaking) a na tendenci k halucinacím. Modely Claude si v těchto testech vedly dobře, projevily silnou schopnost držet se instrukcí a často odmítaly odpovídat, pokud si nebyly jisté fakty.

Společný audit je tak přelomovým momentem, který může změnit kulturu v celém odvětví.

Zdroj: Milad Fakurian / Unsplash Anthropic našel v modelu Claude strukturu připomínající lidské vědomí