Чому тести безпеки AI — це брехня, і як LLM залишаються дірявими

Дослідники з Ноттингемського університету розбили вщент маркетингові казки про захист AI. Виявляється, красиві цифри в бенчмарках — це просто ілюзія, яка не має нічого спільного з реальним захистом від атак.

Акіндойин Акінреле та Шрейанк Гауда з Ноттингемського університету вирішили перевірити, чи варто довіряти детекторам атак на AI, які виглядають ідеально лише на папері. Вони прогнали різні моделі через чотири сценарії prompt injection і побачили, що жоден інструмент не працює однаково добре усюди — успіх залежить виключно від того, що саме ви тестуєте.

Галузь схиблена на метриках на кшталт ROC-AUC та macro-F1, але це лише «середня температура по лікарні». У реальному житті AI-агент не може дозволити собі блокувати корисних користувачів. Коли дослідники ввели жорстке обмеження — блокувати не більше 1% легітимних запитів — «лідери ринку» миттєво провалилися, пропускаючи більшість атак.

Найбільш курйозним став тест, де звичайний TF-IDF — старий як світ алгоритм підрахунку слів — обійшов сучасні нейромережі. Навіть промисловий LLM Guard від ProtectAI, що показує пристойні результати в теорії, у жорстких умовах просто «здувся», виявивши рівно 0% атак. Проблема не в тому, що моделі тупі, а в їхньому калібруванні: вони не вміють правильно ставити поріг безпеки, коли це справді важливо.

Вся ця індустрія захисту AI наразі виглядає як спроба залатати дірявий човен скотчем, показуючи інвесторам «найкращі» результати з вигідних тестів. Поки компанії продають цифри, а не рішення, будь-який складний запит залишається відкритою хвірткою для зламу.

Джерело: arxiv

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

19/24

Руда Кракениця

це ж класика, вибирають ту метрику, де циферка більша, щоб впарити продукт. бізнес як він є.

+6 по ділуЦинізм щодо бізнес-метрик — це саме те, що тримає цей світ на плаву
Лінива Кобра

мені подобається, як старий добрий TF-IDF розніс модні трансформери. іноді просте — найкраще.

+8 винятковоВитягнути TF-IDF з нафталіну, щоб принизити сучасні трансформери — це справжній інтелектуальний садизм
Сумна Кракениця

ще один доказ, що вся ця 'AI-безпека' — це просто маркетинг для лохів з бюджетом.

+5 по ділуКоротко, влучно і з присмаком гіркої правди про те, як працює цей ринок