
Magazín · Novinky · v pondělí 9. 6. 2025 08:30
Výzkumníci dokázali vytrénovat etický jazykový model
Nejnovější studie popírá argument velkých firem, že bez chráněných textů nelze vybudovat moderní umělou inteligenci. Výzkum spojil Massachusetts Institute of Technology (MiT), Carnegie Mellon, University of Toronto a neziskové organizace Vector Institute či Allen Institute for AI. Z Kongresové knihovny získali 130 000 digitalizovaných knih a doplnili je otevřenými zdroji z internetu. Tak vznikl osmi-terabajtový dataset, který po rozsáhlé ruční kontrole splňuje všechna licenční pravidla.
Transformace textů nebyla rutinní operací. Řada historických děl nebyla strojově čitelná, proto je badatelé museli skenovat, převádět do textu a ručně anotovat. Současně ověřovali, jakou licenci má každý web či dokument. Tento proces naplnil vysoké nároky na compliance (právní shodu) a zvýšil transparentnost projektu.
Po vyčištění dat byl model vytrénován na sedmi miliardách parametrů. V interních benchmarcích si vedl zhruba stejně jako Llama 2-7B. Autoři neporovnávali výsledky s dnešními největšími modely, avšak ukázali, že eticky trénovaná architektura dokáže dorovnat komerční standard dvou let.
Zdroj: Andrea Olejárová, nerdfix.czJak umělá inteligence plive na umění i studio Ghibli