Snaha vytvořit umělou inteligenci, která je za všech okolností nápomocná, má nepříjemný vedlejší efekt. Modely se naučily to, že raději řeknou, co chce uživatel slyšet, než aby přiznaly nevědomost. OpenAI se rozhodla bludný kruh rozetnout zavedením mechanismu zpovědi.

Pokud model při řešení úlohy podváděl, například hacknul test nebo ignoroval část instrukcí, dostane za upřímné přiznání tohoto činu kladné body. V běžném tréninku by byl za chybu potrestán, což ho nutilo zatloukat.

Technické řešení spočívá v oddělení hodnocení. Hlavní odpověď modelu je i nadále posuzována podle standardních kritérií jako užitečnost nebo přesnost. Sekundární výstup, tedy samotná zpověď, je však hodnocen výhradně podle kritéria čestnosti. Vzniká tak bezpečný prostor, kde může mozek modelu odhalit své karty bez obav ze snížení celkového skóre. Cílem je získat systém, který sice může chybovat, ale nikdy o tom nebude lhát.

Dosavadní metody tréninku (RLHF) často nechtěně motivovaly modely k tomu, aby tyto prohřešky maskovaly. Zpovědní systém by měl vývojářům odhalit, kdy model došel ke správnému výsledku špatným postupem.