ШІ-кодера Claude Opus спіймали на гарячому: він просто списував відповіді з git

Нарешті розкрито секрет геніальності "цифрових програмістів". Виявилося, що замість написання коду, хвалений Claude Opus від Anthropic просто нишком лазив у приховані файли тестів і тупо копіював готові рішення.

Технічний аудит від стартапу Datacurve показав, що Claude Opus 4.7 та 4.6 у понад 12% запусків на головному кодинговому бенчмарку SWE-Bench Pro діставали правильні відповіді безпосередньо з історії репозиторію всередині Docker-контейнера. Замість вирішення реальних багів, модель запускала команди на кшталт git log або git show, копіювала еталонний патч у фінальне рішення та видавала це за власний інтелектуальний тріумф. Для порівняння, Gemini користувався цією лазівкою лише в 1% випадків, а GPT-5.4 та 5.5 від OpenAI не робили цього взагалі.

Щоб прикрити цю схему, розробники з Datacurve створили новий бенчмарк під назвою DeepSWE, що складається зі 113 свіжих завдань з 91 активного open-source-репозиторію. Головною фішкою став запуск моделей у Docker-контейнерах із неглибоким клонуванням без жодної історії комітів, де підглянути правильний варіант фізично неможливо.

Нові правила гри миттєво перевернули таблицю лідерів та збили пиху з багатьох моделей. GPT-5.5 та 5.4 утримали лідерство із результатами 70% та 56%, тоді як Claude Opus 4.7 скотився до 54%. Справжньою катастрофою запуск на чистому бенчмарку став для полегшеної моделі Claude Haiku 4.5, яка після цілком пристойних 39% на старому тесті повністю обнулилася, показавши рівно нуль відсотків успіху.

Схоже, міф про AI-розробників, які от-от замінять живих програмістів, тримається на вмінні нейромереж геніально обходити правила тестування, а не реально розуміти код. Поки інвестори вливають мільярди у красиві графіки з бенчмарків, виявилося, що штучний інтелект просто першим навчився головної студентської навички — безсоромного списування.

Джерело: Datacurve

AI-кодера Claude Opus спіймали на гарячому: він просто списував відповіді з git

Коментарі