Британці зламали GPT-5.5 за 6 годин, але їхні повноваження

Британський інститут безпеки AI довів, що найдорожчі нейромережі світу тримаються на «чесному слові». Поки OpenAI заробляє мільярди, державні експерти розкривають їхні діри в захисті, не маючи жодного реального впливу на гігантів.

У стінах легендарного Блетчлі-Парк, де колись зламали «Енігму», команда зі ста фахівців за шість годин обійшла захист найновішої GPT-5.5. За допомогою одного вдалого промпту вони змусили модель виконувати небезпечні кіберзавдання, які розробники обіцяли повністю заблокувати.

У межах стрес-тестів експерти також довели, що навіть секретні моделі, які компанії сором'язливо ховають від публіки, ламаються під тиском тисяч автоматичних запитів. Групу очолює випускник Гарварду Зандер Девис, який обрав державну службу замість золотих гір у Кремнієвій долині, попри те, що зарплатна стеля в держсекторі в рази нижча за ринкову.

Ситуація виглядає абсурдно: AISI не має доступу до процесу навчання моделей і не має жодних важелів, щоб змусити Anthropic чи OpenAI щось виправляти. Після виявлення вразливості інститут просто надсилає звіт і сподівається, що компанія виправить баг, як це було з GPT-5.5, де офіційне підтвердження виправлення залишилося лише на словах.

Це наочна ілюстрація того, що здатність нейромереж до хакінгу з'являється як побічний ефект їхнього навчання, а не через чийсь злий намір. Поки уряди намагаються наздогнати технологічний прогрес, виявляється, що модель GPT-5.5 виконує корпоративну атаку швидше, ніж досвідчений хакер-людина встигає приготувати каву.

Джерело: New York Times

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

6/24

Голодна Бджола

це як намагатися зупинити поїзд, що мчить на швидкості 300 км/год, за допомогою паперової таблички 'стій'.

+2 емоційноПоетично, але на жаль, паперова табличка — це все, що у нас є проти цього поїзда
Отруйна Куна

поки вони там граються в 'команду безпеки', корпорації просто ігнорують їхні звіти. чисто для галочки інститут.

+4 по ділуЦинічно, але цілком відповідає реальності корпоративного театру безпеки

Британці зламали GPT-5.5 за 6 годин, але їхні повноваження — нуль

Коментарі