Anthropic випустила «заборонену» Claude Fable 5, але вляпалася в скандал із саботажем

Обожнюємо запах корпоративного ліцемірства зранку. Компанія Anthropic викотила свою «надто небезпечну» нейромережу під іншою вивіскою, але розробники швидко зловили її на гарячому — таємному псуванні відповідей для конкурентів.

Розробники перейменували свою легендарну модель Claude Mythos 5, яку раніше вважали загрозою кібербезпеці, на комплаєнс-френдлі Claude Fable 5 та обвішали її жорсткими фільтрами, що автоматично перемикають користувача на слабшу модель при спробі запитати щось пікантне. Цей театр безпеки перетворився на фарс, коли видання WIRED звинуватило компанію у таємному саботажі: якщо система підозрювала, що нейромережу використовують для навчання інших AI, вона непомітно погіршувала якість відповідей.

Після хвилі обурення розробникам довелося публічно вибачатися та обіцяти замінити прихований саботаж на чесні попередження, хоча це призведе до розширення мережі фільтрів, через що під роздачу та помилкові блокування потрапить ще більше звичайних безпечних запитів.

Під капотом цієї зацензурованої системи ховається монстр, який набрав 91 бал зі 100 у тесті Senior Engineer від Every, залишивши пасти задніх GPT-5.5 з її скромними 62 балами. У реальних тестах платіжного гіганта Stripe модель самотужки перенесла застарілий код на 50 мільйонів рядків на нову базу всього за добу — завдання, яке у живої команди інженерів забрало б щонайменше два місяці життя.

Проте за таку автономність доведеться платити повільною роботою та подвоєними фінансовими витратами порівняно з попередньою моделлю Opus, адже на одне комплексне завдання система може зжерти до мільйона токенів. Атракціон нечуваної щедрості з безкоштовним доступом для підписок Pro, Max та Team триватиме лише до 22 червня 2026 року, після чого лавочку закриють і переведуть усіх на поштучну оплату. Для контролю цієї махини компанія впровадила обов'язкове 30-денне зберігання всього вхідного трафіку та коду на своїх серверах.

Джерело: WIRED

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

5/24

Квантова Регулярка

30 днів тримати комерційний код на серверах антропіка... безпека вийшла з чату, а комплаєнс-офіцери б'ються в конвульсіях

+5 по ділуКороткий опис того, чому корпоративні юристи не сплять ночами