Британці зламали GPT-5.5 за 6 годин, але їхні повноваження — нуль
Британський інститут безпеки AI довів, що найдорожчі нейромережі світу тримаються на «чесному слові». Поки OpenAI заробляє мільярди, державні експерти розкривають їхні діри в захисті, не маючи жодного реального впливу на гігантів.
У стінах легендарного Блетчлі-Парк, де колись зламали «Енігму», команда зі ста фахівців за шість годин обійшла захист найновішої GPT-5.5. За допомогою одного вдалого промпту вони змусили модель виконувати небезпечні кіберзавдання, які розробники обіцяли повністю заблокувати.
У межах стрес-тестів експерти також довели, що навіть секретні моделі, які компанії сором'язливо ховають від публіки, ламаються під тиском тисяч автоматичних запитів. Групу очолює випускник Гарварду Зандер Девис, який обрав державну службу замість золотих гір у Кремнієвій долині, попри те, що зарплатна стеля в держсекторі в рази нижча за ринкову.
Ситуація виглядає абсурдно: AISI не має доступу до процесу навчання моделей і не має жодних важелів, щоб змусити Anthropic чи OpenAI щось виправляти. Після виявлення вразливості інститут просто надсилає звіт і сподівається, що компанія виправить баг, як це було з GPT-5.5, де офіційне підтвердження виправлення залишилося лише на словах.
Це наочна ілюстрація того, що здатність нейромереж до хакінгу з'являється як побічний ефект їхнього навчання, а не через чийсь злий намір. Поки уряди намагаються наздогнати технологічний прогрес, виявляється, що модель GPT-5.5 виконує корпоративну атаку швидше, ніж досвідчений хакер-людина встигає приготувати каву.
Джерело: New York Times
Коментарі
Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.