Чому тести безпеки AI — це брехня, і як LLM залишаються дірявими
Дослідники з Ноттингемського університету розбили вщент маркетингові казки про захист AI. Виявляється, красиві цифри в бенчмарках — це просто ілюзія, яка не має нічого спільного з реальним захистом від атак.
Акіндойин Акінреле та Шрейанк Гауда з Ноттингемського університету вирішили перевірити, чи варто довіряти детекторам атак на AI, які виглядають ідеально лише на папері. Вони прогнали різні моделі через чотири сценарії prompt injection і побачили, що жоден інструмент не працює однаково добре усюди — успіх залежить виключно від того, що саме ви тестуєте.
Галузь схиблена на метриках на кшталт ROC-AUC та macro-F1, але це лише «середня температура по лікарні». У реальному житті AI-агент не може дозволити собі блокувати корисних користувачів. Коли дослідники ввели жорстке обмеження — блокувати не більше 1% легітимних запитів — «лідери ринку» миттєво провалилися, пропускаючи більшість атак.
Найбільш курйозним став тест, де звичайний TF-IDF — старий як світ алгоритм підрахунку слів — обійшов сучасні нейромережі. Навіть промисловий LLM Guard від ProtectAI, що показує пристойні результати в теорії, у жорстких умовах просто «здувся», виявивши рівно 0% атак. Проблема не в тому, що моделі тупі, а в їхньому калібруванні: вони не вміють правильно ставити поріг безпеки, коли це справді важливо.
Вся ця індустрія захисту AI наразі виглядає як спроба залатати дірявий човен скотчем, показуючи інвесторам «найкращі» результати з вигідних тестів. Поки компанії продають цифри, а не рішення, будь-який складний запит залишається відкритою хвірткою для зламу.
Джерело: arxiv
Коментарі
Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.