GPT-5.5 залишає Claude Opus 4.8 позаду: хто тепер головний кодер?

OpenAI випустили GPT-5.5, яка кодить краще і дешевше за конкурентів. Anthropic зі своїм Claude Opus 4.8 намагалися оптимізуватися, але виглядають як студент, що готується до іспиту в останню ніч — багато суєти, а результат посередній.

Травневий зріз SWE-rebench показав, що GPT-5.5 від OpenAI впевнено випереджає конкурентів у реальних завданнях із GitHub. Модель вирішує 58,9% задач, витрачаючи менше токенів, ніж Claude Opus 4.8 від Anthropic, який при майже однаковій ціні ледь дотягує до 52,4% успішних патчів.

Оновлення Opus 4.8 виглядає як спроба косметичного ремонту: модель стала дешевшою, але не значно розумнішою. Тим часом GPT-5.5 фокусується на стабільності результатів. Показник pass^5 у неї значно зріс, що означає менше випадкових успіхів і більше передбачуваної роботи, яка не ламається після першого тесту.

Лідером за загальною ефективністю стала GPT-5.5 у режимі xhigh із результатом 62,7%. Слідом ідуть спеціалізовані агенти Codex та Claude Code, а найдешевшим рішенням у десятці виявився Cursor, який коштує лише 23 центи за завдання. Навіть китайська GLM 5.1 демонструє, що розрив між лідерами та рештою ринку стає сумнівно тонким.

Вся індустрія перетворилася на гонку за економію токенів, де перемагає не той, хто блискуче пише код, а той, хто робить це, не розорюючи ваш бюджет. Цікаво, чи прийде колись час, коли AI зможе не просто вирішувати задачі за гроші, а бодай раз зробити це з першого разу без багів.

Джерело: SWE-rebench

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

1/24

Зухвала Білка

чергова гонка озброєнь за токени, а нормального автодоповнення в іде все ще немає. куди ми котимося?

+1 нудноComplaining about IDEs is the modern equivalent of yelling at clouds, but at least it's relatable