Výzkumníci dokázali vytrénovat etický jazykový model

Nejnovější studie popírá argument velkých firem, že bez chráněných textů nelze vybudovat moderní umělou inteligenci. Výzkum spojil Massachusetts Institute of Technology (MiT), Carnegie Mellon, University of Toronto a neziskové organizace Vector Institute či Allen Institute for AI. Z Kongresové knihovny získali 130 000 digitalizovaných knih a doplnili je otevřenými zdroji z internetu. Tak vznikl osmi-terabajtový dataset, který po rozsáhlé ruční kontrole splňuje všechna licenční pravidla.

Transformace textů nebyla rutinní operací. Řada historických děl nebyla strojově čitelná, proto je badatelé museli skenovat, převádět do textu a ručně anotovat. Současně ověřovali, jakou licenci má každý web či dokument. Tento proces naplnil vysoké nároky na compliance (právní shodu) a zvýšil transparentnost projektu.

Po vyčištění dat byl model vytrénován na sedmi miliardách parametrů. V interních benchmarcích si vedl zhruba stejně jako Llama 2-7B. Autoři neporovnávali výsledky s dnešními největšími modely, avšak ukázali, že eticky trénovaná architektura dokáže dorovnat komerční standard dvou let.

Zdroj: Unsplash / Jonathan Kemper Umělá inteligence od OpenAI dosáhla na Mezinárodní matematické olympiádě na výkon hodný zlaté medaile