Nejnovější studie popírá argument velkých firem, že bez chráněných textů nelze vybudovat moderní umělou inteligenci. Výzkum spojil Massachusetts Institute of Technology (MiT), Carnegie Mellon, University of Toronto a neziskové organizace Vector Institute či Allen Institute for AI. Z Kongresové knihovny získali 130 000 digitalizovaných knih a doplnili je otevřenými zdroji z internetu. Tak vznikl osmi-terabajtový dataset, který po rozsáhlé ruční kontrole splňuje všechna licenční pravidla.

Transformace textů nebyla rutinní operací. Řada historických děl nebyla strojově čitelná, proto je badatelé museli skenovat, převádět do textu a ručně anotovat. Současně ověřovali, jakou licenci má každý web či dokument. Tento proces naplnil vysoké nároky na compliance (právní shodu) a zvýšil transparentnost projektu.

Po vyčištění dat byl model vytrénován na sedmi miliardách parametrů. V interních benchmarcích si vedl zhruba stejně jako Llama 2-7B. Autoři neporovnávali výsledky s dnešními největšími modely, avšak ukázali, že eticky trénovaná architektura dokáže dorovnat komerční standard dvou let.