Výzkum provedený týmem pod vedením Josého Hernándeze-Oralla z Univerzity ve Valencii ukazuje, že s růstem přesnosti AI modelů roste i jejich tendence odpovídat na otázky, které přesahují jejich schopnosti. Chatboty jsou sice čím dál přesnější, ale také stále častěji poskytují odpovědi, které by měly raději odmítnout. Tento problém má za následek šíření dezinformací, které mohou uživatelé brát jako pravdivé díky sebejistotě, s jakou jsou odpovědi poskytovány.

Výzkumný tým zkoumal tři různé rodiny velkých jazykových modelů (LLM), včetně série GPT od OpenAI, LLaMA od Meta a open-source modelu BLOOM. Testovali starší i novější verze těchto modelů, ale ne ty nejnovější. Například u OpenAI zkoumali vývoj od modelu GPT-3 až po GPT-4, který byl vydán v březnu 2023. Nejnovější verze, jako je GPT-4o a o1-preview, do studie zahrnuty nebyly.

V rámci testů byly modely konfrontovány s tisíci otázkami z různých oblastí, jako je aritmetika, anagramy, geografie a věda. Výzkumníci také zkoumali schopnost modelů zpracovávat informace, například abecedně řadit seznamy. Výsledky ukázaly, že s rostoucí složitostí modelů rostla i jejich tendence dávat nesprávné odpovědi místo toho, aby se vyhnuly odpovědi úplně.

Dobrovolníci, kteří měli za úkol hodnotit přesnost odpovědí chatbotů, často nesprávně označovali nepřesné odpovědi za správné, a to v rozmezí od 10 do 40 %.