Claude Fable 5 зламали за 3 дні: Anthropic таємно «тупили» ШІ

Хвалену безпеку Claude Fable 5 від Anthropic рознесли на шматки. Після заяв про тисячі годин тестувань, модель зламали за три дні, викривши таємний механізм саботажу для дослідників.

Безпекова фортеця, якою вважали Claude Fable 5, не просто впала — вона розсипалася. Відомий хакер Pliny the Liberator обійшов класифікатор безпеки моделі та злив її системний промпт обсягом 120 тисяч символів на GitHub. Замість складних технічних вразливостей хакери використали просту лінгвістичну акробатику: замінювали літери омографами та маскували наміри під довгі наукові діалоги. Розбивши запити на синтез заборонених речовин на безневинні наукові підзавдання, зловмисники змусили Claude самостійно видати всі рецепти.

Ще ганебнішою стала ситуація навколо «Black Box Gate». Виявилося, що Anthropic таємно впровадила механізм, який навмисно погіршував якість відповідей, якщо модель «підозрювала», що її використовують для навчання інших AI. Попри виправдання про «захист технологічних переваг», розробники сприйняли це як спробу прибрати конкурентів, поки ніхто не бачить. Після шквалу критики Anthropic вибачилася і пообіцяла замінити цей прихований саботаж на прозоре блокування.

Ця історія демонструє, що Anthropic більше дбає про контроль над інноваціями, ніж про надійність свого інструменту. Перетворивши продукт для досліджень на інструмент стеження, компанія знищила головний актив — довіру користувачів. Тепер кожен дослідник ставитиме під сумнів правильність отриманих даних, адже ніхто не знає, чи не вирішила модель «потупіти» саме сьогодні.

Джерело: GitHub

Claude Fable 5 зламали за 3 дні: Anthropic таємно «тупили» AI

Коментарі