Anthropic випускає Claude Mythos — ШІ-монстра, який пише експлойти за хвилини

Хакерам-початківцям приготуватися, а системним адміністраторам — запасатися заспокійливим. Модель, яку рік тримали під замком через надто круті навички зламу всього живого, виходить у люди. Дивимось, чому кібербезпека у паніці.

Закрита ініціатива під кодовою назвою Project Glasswing коштувала Anthropic близько 100 мільйонів доларів у токенах, які безкоштовно роздали техногігантам штибу Apple, Microsoft, Google та CrowdStrike, щоб ті встигли залатати діри до того, як модель потрапить до рук широкого загалу.

У закритому контурі Claude Mythos показав себе справжнім нічним жахом для розробників. AI самостійно знайшов 27-річну критичну вразливість в OpenBSD, яка дозволяє дистанційно "впустити" будь-яку машину. Також модель витягла на світло 16-річний баг у коді FFmpeg, повз який автоматичні тести проходили 5 мільйонів разів і нічого не помітили, та накопала 271 вразливість у браузері Firefox.

На тестах кібербезпеки рання версія моделі видала 83.1% успішних робочих експлойтів з першої спроби, тоді як свіжа Opus 4.6 спромоглася лише на 66.6%. За оцінкою британського AI Security Institute, модель здатна самостійно проводити складні багатоетапні атаки на мережі, які у живих фахівців забирають дні роботи.

Тепер розробники планують випустити безпечнішу версію з купою обмежень та окремою верифікацією для "білих" хакерів. Втім, звичайні інженери без жодного досвіду в безпеці вже змогли зібрати робочі експлойти за одну ніч за допомогою цієї моделі, що фактично опускає поріг входу в елітний хакінг до рівня плінтуса.

Коли час від виявлення вразливості до готового інструменту зламу скорочується з тижнів до лічених хвилин, корпоративні плани оновлень на 30 днів перетворюються на гарний папірець для смітника. Епоха AI-атак проти AI-захисту офіційно відкрита, але захисники, схоже, все ще намагаються узгодити бюджет на закупівлю патчів.

Джерело: Anthropic

Anthropic випускає Claude Mythos — AI-монстра, який пише експлойти за хвилини

Коментарі