NVIDIA včera oficiálně odhalila model Nemotron 3 Nano Omni, který přepisuje pravidla pro multimodální modely s otevřeným zdrojovým kódem. Na rozdíl od předchozích pokusů, které vyžadovaly samostatné moduly pro zpracování zvuku, obrazu a textu, tenhle model všechno zvládne sám. Výsledkem je devítinásobný nárůst propustnosti oproti konkurenčním otevřeným omni modelům při zachování stejné úrovně interaktivity.

Srdcem novinky je hybridní architektura Mixture of Experts s celkovou kapacitou 30 miliard parametrů, z nichž se na každý token aktivují zhruba 3 miliardy. Celek zvládá až 256 000 tokenů sdíleného multimodálního kontextu v jediném souvislém uvažovacím řetězci.

Nemotron 3 Nano Omni pokořil šest nezávislých žebříčků najednou. V dokumentové inteligenci ovládl MMlongbench-Doc a OCRBenchV2, v porozumění videu a audiu zase WorldSense, DailyOmni a VoiceBench. Na otevřeném průmyslovém benchmarku MediaPerf, který hodnotí modely na reálných mediálních datech napříč kvalitou, náklady a propustností, dosáhl model nejvyšší propustnosti ve všech úlohách a nejnižších nákladů. Proti alternativám nabízí devětkrát vyšší agregovanou propustnost a 2,9násobek rychlosti jednoduchého uvažování.

V širší rodině Nemotron zastává Nano Omni pozici rychlého vnímatele. Zatímco Nemotron 3 Super se stará o vysokofrekvenční provádění rutinních úkonů a Nemotron 3 Ultra řeší složité plánování, nový model pohání subagenty v agentních workflow.