Společnost xAI nedávno oznámila uvedení Grok-1.5V, nové verze svého prvního multimodálního modelu AI, který umí efektivně kombinovat zpracování textu a obrazu. Grok-1.5V přichází s inovativní schopností analyzovat a interpretovat nejen slova, ale i obrazy, což umožňuje uživatelům předkládat fotografie diagramů nebo grafů a převádět je do programovacího kódu.

Model Grok-1.5, předchůdce nové verze, byl zvláště zaměřen na zlepšení schopností v oblasti programování a matematiky a na zpracování delších textů. Nová verze Grok-1.5V rozšiřuje tyto možnosti o vizuální dimenzi, což umožňuje modelu lépe integrovat a interpretovat informace z různých zdrojů.

Současně s uvedením Grok-1.5V společnost také zveřejnila novou datovou sadu RealWorldQA, která obsahuje 700 obrazových položek doprovázených otázkami a odpověďmi. Datová sada je navržena tak, aby testovala schopnosti AI modelů v reálném světě a ukázala, jak dobře dokáží porozumět komplexním multimodálním dotazům. Podle tvrzení xAI, Grok-1.5V dosáhl nejvyšších výsledků v porovnání s konkurenčními modely jako OpenAI GPT-4V a Google Gemini Pro 1.5.

Zatímco přesný datum spuštění Grok-1.5V pro veřejnost nebyl sdělen, první uživatelé a testovací skupiny by měly brzy začít využívat jeho rozšířené schopnosti.