Tchajwanský výrobce pamětí ADATA představil technologii TRUSTA AI Scaler, která cílí na jedno z nejdražších problémů současné AI infrastruktury, práci s pamětí. Řešení propojuje paměť GPU, klasickou operační DRAM a rychlá SSD úložiště do jedné hierarchie, mezi níž dynamicky přesouvá data podle aktuálních potřeb modelu. Podle společnosti může podobný přístup snížit náklady na podnikové nasazení velkých jazykových modelů o více než 50 %. A to je dost.

Na stejný problém letos během veletrhu CES upozornil také šéf NVIDIA Jensen Huang. Uvedl, že současná generace AI systémů už nenaráží hlavně na nedostatek výpočetního výkonu, ale především na limity paměti a práce s kontextem. Moderní jazykové modely totiž musí držet obrovské množství dat, mezi něž patří předchozí konverzace, dokumenty nebo databáze. Samotná paměť na AI akcelerátoru dnes často nestačí ani kapacitou, ani cenou.

TRUSTA AI Scaler funguje na principu víceúrovňové hierarchie paměti. Nejrychlejší a zároveň nejdražší vrstvu tvoří paměť HBM přímo na GPU. Pod ní se nachází operační paměť DRAM a nejnižší vrstvu obstarávají rychlá enterprise SSD. Systém průběžně přesouvá data mezi jednotlivými vrstvami podle toho, jak často je model využívá. Nejaktivnější kontext drží co nejblíže GPU, zatímco méně používaná data odkládá do levnějšího úložiště. Firmy díky tomu nemusí pořizovat další drahé akcelerátory pouze kvůli vyšší kapacitě paměti.

Celý přístup stojí na výrazném rozdílu v ceně jednotlivých typů pamětí. HBM paměť používaná v AI akcelerátorech stojí násobně více než klasická DRAM a řádově více než SSD úložiště. Pokud tedy model dokáže část dat přesunout mimo GPU a stále běžet efektivně, může firma výrazně snížit celkové náklady na hardware. Slibované úspory se týkají především provozu hotových modelů a generování odpovědí. V případě trénování nových AI modelů zůstává extrémně rychlá paměť na GPU stále zásadní.