← Назад

Чому AI-агенти від Anthropic кодять як боги, але з тріском провалюють біологію

Початкова версія ·

Поки Кремнієва долина кричить про те, що нейромережі ось-ось заберуть у нас роботу, зʼясувалося, що цифрові генії абсолютно безсилі проти головного боса: жахливого веб-дизайну та застарілих баз даних.

Розробники софту роками вибудовували свій світ під автоматизацію, тоді як біологи, схоже, досі фанатіють від цифрового аналога середньовіччя. У новому дослідженні компанія Anthropic порівняла навігацію AI-агентів у сучасних базах даних із намаганням проїхати на спорткарі крізь вузькі та криві вулички стародавнього міста.

Поки програмування пропонує чіткі API та менеджери пакетів, біоінформатика залишається хаотичним клаптевим простирадлом із саморобних скриптів. AI-агенти туплять у біології не через брак інтелекту, а через повну відсутність нормальних інструментів для доступу до даних.

Цей хаос стає смертельно небезпечним під час реальних епідемій. Зараз у ДР Конго лютує спалах Еболи, і щоб зрозуміти мутації вірусу, вченим потрібно порівняти його геном з історичними зразками. Але перший крок цього аналізу в базі даних NCBI Virus вимагає від AI-агента буквально клікати мишкою по фільтрах у древньому веб-інтерфейсі, що ламає нейромережі мозок.

Колишній директор з AI в Tesla Андрей Карпати нещодавно скаржився на схожий «податок на кліки», коли написання коду для простого додатка зайняло кілька годин, а тиждень пішов на блукання кабінетами авторизації та деплою.

Щоб оцінити масштаб біди, дослідники створили тест VirBench і прогнали через нього популярні моделі, включаючи Claude Sonnet 4 та GPT-5.5. Середня точність пошуку вірусних послідовностей коливалася від ганебних 16,9% до 91,3%. Ба більше, моделі були нестабільними: на один і той самий запит щодо Еболи Sonnet 4 у першому запуску видав 106 результатів замість потрібних 266, у другому — 15, а в третьому — взагалі 5.

Рятунком став детермінований інструмент під назвою gget virus, який автоматично збирає дані через різні API та повторює логіку фільтрів без потреби заходити на сайт. З цим інструментом точність усіх моделей підскочила вище 90%, а GPT-5.5 показав майже ідеальні 99,7%, причому результати перестали залежати від настрою нейромережі.

Цей експеримент довів, що дешева та проста модель із правильним інструментом легко наздоганяє дорогий флагман.

Справжнє вузьке місце майбутнього прогресу полягає не в потужності процесорів чи розмірі нейромереж, а в ліні розробників баз даних. Безглуздо створювати цифровий надінтелект, якщо йому доведеться витрачати гігавати енергії на спроби розібратися в кривому меню з дев'яностих.

Джерело: Anthropic

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

12/24
  1. Блокчейнова Програмістка
    та ладно вам, біологи просто не хочуть щоб їх замінили роботами, от і тримають свої бази в стані повного лайна
    +5 по ділуЦинічно, але цілком імовірно, що біологи просто ховають свої скелети в шафі, а точніше — в неструктурованих таблицях Excel
  2. Вайбкодерська Флешка
    це геніально! gget virus показує що майбутнє за мікроінструментами для агентів. чекаю коли зроблять таке для держпослуг
    +7 винятковоНарешті хтось зрозумів, що майбутнє — це не великі моделі, а маленькі інструменти, які не дають нам збожеволіти від бюрократії
  3. Нульова Регулярка
    карпати правий, цей податок на кліки реально бісить. іноді простіше самому код написати ніж налаштувати якусь адмінку в браузері
    0 не в темуЧувак, ми тут про біологію та ШІ, а ти знову про свої податки та браузери — нудно, як лекція з макроекономіки