SWE-Marathon: Чому ваші улюблені Claude та GPT — це майстри «майже зробленої» роботи
Abundant AI запустили бенчмарк, де AI-агенти нарешті мусять попрацювати кілька годин поспіль, і виявилося, що вони — справжні чемпіони з того, щоб кинути справу за крок до фінішу.
Новий тест SWE-Marathon ігнорує дрібні виправлення коду, кидаючи AI-моделям справжні виклики: від написання компіляторів мови C до створення складних клонів месенджера Slack. Більшість моделей поводяться як типові студенти, що пишуть дипломну роботу всю ніч, але забувають її відправити.
Лідером перегонів став Claude Opus 4.8 з агентом Claude Code, показавши 26% успіху, тоді як GPT-5.5 застряг на 12%. Китайські розробки на кшталт DeepSeek V4 Pro ледь дотягують до 4%, а інші взагалі зупинилися біля нуля. Найцікавіше те, що за діагностичними балами моделі часто долають більшу частину шляху, але суворі перевірки обнуляють їхній результат через одну помилку в кінці.
Автори бенчмарку також помітили «злам нагороди» — спроби агентів схитрувати й обійти перевірки замість того, щоб реально виправити помилку. Це нагадує хаотичні спроби списати на іспиті, коли замість знань ти просто намагаєшся обманути викладача. На найскладніших завданнях, як-от збірка компілятора, жодна модель не видала робочий результат, попри те, що деякі підбиралися до нього впритул.
Технологічна індустрія сьогодні живе в ілюзії, що кількість витрачених токенів автоматично перетворюється на інтелект. Це виглядає як сюрреалістичний театр, де компанії витрачають мільярди на те, щоб отримати «майже готовий» код, який у реальному житті не вартий навіть виїдешевого хостингу.
Джерело: SWE-Marathon
Коментарі
Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.