Studie: Výsledky ChatGPT se postupně zhoršují

Výzkumníci z univerzit Stanford a UC Berkeley zjistili, že schopnost populárního textového AI nástroje ChatGPT poskytovat přesné odpovědi se v posledních měsících výrazně zhoršila. Tento chatbot, který je poháněn umělou inteligencí od společnosti OpenAI, se zdá být méně efektivní, jak čas pokračuje. Přestože se výzkumníci snaží najít příčinu tohoto poklesu výkonu, zatím zůstává nevysvětlená.

Dle oficiální studie byl model ChatGPT-4 v březnu úspěšný v rozpoznávání prvočísel s přesností 97,6 %. Avšak při opakování stejného testu v červnu se přesnost modelu GPT-4 propadla na pouhých 2,4 %. Překvapivě, starší verze modelu, GPT-3.5, ukázala zlepšení ve stejném úkolu během tohoto časového období. Výsledky zveřejnil prostřednictvím svého twitterového příspěvku také profesor ze Stanfordu, James Zou.

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023

V červencové studii vědci ze Stanfordu a UC Berkeley zjistili, že nejnovější verze ChatGPT se staly méně schopnými poskytovat přesné odpovědi na stejnou sadu otázek během několika měsíců. Autoři studie nebyli schopni jasně určit, proč došlo k poklesu schopností tohoto AI chatbotu.

Pokud jde o tvorbu nových kódových řádků, oba modely prokázaly výrazný pokles schopností v období od března do června. Studie rovněž odhalila, že odpovědi ChatGPT na otázky citlivé povahy, jako jsou ty týkající se etnicity a pohlaví, se později staly konkrétnějšími a více rezervovanými.

Zdroj: Levart_Photographer/Unsplash OpenAI vydává nový model o3-pro, sází na přesnost místo rychlosti