Claude Opus 4.8 je tady, vyšší přesnost v kódu i levnější rychlý režim

Společnost Anthropic představila Claude Opus 4.8, novou generaci svého nejvýkonnějšího modelu zaměřenou na profesionální vývoj softwaru, složité agentní pracovní postupy a podnikové úlohy s vysokou mírou rizika. Agentními úlohami se rozumí situace, kdy model nejedná jen jako chatovací pomocník, ale samostatně plní více kroků za sebou, používá nástroje a dotahuje zadání do konce. Právě tam míří hlavní novinky.

Nejvíc Anthropic zdůrazňuje poctivost. Model podle firmy raději přizná nejistotu, než aby vyrukoval s nepodloženým tvrzením, a u kontroly kódu je zhruba čtyřikrát méně náchylný přehlédnout chybu bez upozornění. Pro vývojáře jde o zásadní rozdíl, protože tiše propuštěná chyba v generovaném kódu může napáchat víc škody než zjevné odmítnutí úkolu. Anthropic novinku popisuje jako svůj zatím nejpoctivější model.

V programování se Claude Opus 4.8 staví do čela. Na testu SWE-Bench Pro, který měří samostatné řešení reálných programátorských úkolů, dosáhl 69,2 %. Předchozí Opus 4.7 zvládl 64,3 %, konkurenční GPT-5.5 skončil na 58,6 % a Gemini 3.1 Pro na 54,2 %. Náskok není kosmetický, mezi vrcholnými modely jde o znatelný odstup právě v disciplíně, na kterou firma model cílí.

Silnou stránkou je i ovládání počítače a práce s prohlížečem. V testu Online-Mind2Web, kde model samostatně proklikává webové úkoly, získal 84 %, což znamená citelný skok oproti starší generaci i oproti GPT-5.5. V náročném testu Super-Agent byl navíc jediným modelem, který dotáhl každý zadaný případ od začátku do konce, a to při srovnatelných nákladech jako konkurence.

Dobré výsledky hlásí Anthropic i mimo programování. V testu mnohaoborového uvažování Humanity's Last Exam model dosáhl 49,8 % bez pomoci nástrojů a 57,9 % s nimi. V ekonomicky zaměřeném testu GDPval vyskočil na 1890 bodů z dřívějších 1753 u Opusu 4.7, GPT-5.5 přitom zůstal na 1769.

Zdroj: Unsplash / Dima Solomin Metu žaluje 26 lidí, umělá inteligence prý vybírala k propuštění nemocné