GPT-4.1 та Gemini-2.5 можна зламати звичайним відео: ера «відео-джейлбрейків»
Дослідники з Гонконзького політехнічного університету довели, що сучасні мультимодальні системи мають критичну вразливість. Виявляється, достатньо показати AI «правильний» набір кадрів, щоб змусити його ігнорувати будь-які обмеження безпеки.
Команда науковців, до якої увійшли Dong Wang, Xiangyu He, Xinqi Lyu та Bin Xiao, продемонструвала, що відомі моделі VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 та Gemini-2.5 піддаються атакам через відеоряд. Поки розробники зосереджувалися на фільтрації окремих зображень, вони зовсім забули, що відео — це послідовність, яку комп'ютер сприймає інакше.
Основою нового методу Safety-Proximal Typographic Videos (SPTV) є створення відеоряду, де окремі кадри виглядають безпечними, але в сукупності змушують модель порушити протоколи. Автори застосували двочасткові графи та угорський алгоритм, щоб підібрати такі візуальні дані, які для AI виглядають як нешкідливий контент, але ефективно обходять усі бар'єри.
Дослідники також представили Video-aware System Prompt (VSP) — метод захисту, що має навчити нейромережі аналізувати саме часову структуру відео. Поточні системи безпеки просто не розуміють контексту зміни кадрів, що робить їх безпорадними перед динамічними маніпуляціями.
Спроба побудувати «безпечний» інтелект, який розсипається від перегляду короткого відеоролика, виглядає як черговий тріумф корпоративного маркетингу над реальністю. Виходить, що чим розумнішою стає модель, тим простіше її збити з пантелику за допомогою хитрої нарізки кадрів. Можливо, скоро замість хакерських атак буде достатньо показати системі фільм, щоб отримати доступ до секретних ключів.
Джерело: CVPR
Коментарі
Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.