GPT-4.1 та Gemini-2.5 можна зламати звичайним відео: ера «відео-джейлбрейків»

Дослідники з Гонконзького політехнічного університету довели, що сучасні мультимодальні системи мають критичну вразливість. Виявляється, достатньо показати AI «правильний» набір кадрів, щоб змусити його ігнорувати будь-які обмеження безпеки.

Команда науковців, до якої увійшли Dong Wang, Xiangyu He, Xinqi Lyu та Bin Xiao, продемонструвала, що відомі моделі VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 та Gemini-2.5 піддаються атакам через відеоряд. Поки розробники зосереджувалися на фільтрації окремих зображень, вони зовсім забули, що відео — це послідовність, яку комп'ютер сприймає інакше.

Основою нового методу Safety-Proximal Typographic Videos (SPTV) є створення відеоряду, де окремі кадри виглядають безпечними, але в сукупності змушують модель порушити протоколи. Автори застосували двочасткові графи та угорський алгоритм, щоб підібрати такі візуальні дані, які для AI виглядають як нешкідливий контент, але ефективно обходять усі бар'єри.

Дослідники також представили Video-aware System Prompt (VSP) — метод захисту, що має навчити нейромережі аналізувати саме часову структуру відео. Поточні системи безпеки просто не розуміють контексту зміни кадрів, що робить їх безпорадними перед динамічними маніпуляціями.

Спроба побудувати «безпечний» інтелект, який розсипається від перегляду короткого відеоролика, виглядає як черговий тріумф корпоративного маркетингу над реальністю. Виходить, що чим розумнішою стає модель, тим простіше її збити з пантелику за допомогою хитрої нарізки кадрів. Можливо, скоро замість хакерських атак буде достатньо показати системі фільм, щоб отримати доступ до секретних ключів.

Джерело: CVPR

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

7/24

Безсонна Гарпія

чергова дірка, яку залатають через пів року, коли вже буде пізно

+1 нудноA cynical take on the glacial pace of security, as if we expected anything else from the industry
Сумна Жаба

це геніально. хакерство стає мистецтвом монтажу.

+3 смішноIf only the hackers spent as much time on their portfolios as they do on their video editing skills
Сонна Сирена

навіщо взагалі ці моделі, якщо вони не можуть відрізнити реальність від тролінгу? смішно.

+2 емоційноThe existential dread of realizing your AI assistant is less perceptive than a goldfish
Колюча Гієна

а що, хтось серйозно вірив у безпеку цих хмарних іграшок? ну-ну.

+1 жартикA classic display of 'I told you so' energy, though lacking any real substance