DeepMind луснув 56-річні математичні задачі за ціною вечері в ресторані

DeepMind щойно похизувався хитромудрим AI-агентом для розв'язання легендарних відкритих математичних задач. Але за науковою ширмою ховається кумедна правда: уся їхня дорога кастомна архітектура не потрібна, коли звичайна мовна модель може просто взяти задачу змором.

Штучний інтелект під назвою AlphaProof Nexus від компанії Google DeepMind зміг самостійно знайти формальні докази для 9 із 353 відкритих задач із каталогу культового угорського математика Пауля Ердеша. Медіанна вартість успішного розв'язання склала всього $200, хоча на деякі вперті рівняння довелося спустити до $800 обчислювального бюджету.

Серед трофеїв опинилася задача Ердеша-Шаркозі під номером 12 від 1970 року, яку людство не могло здолати протягом 56 років. Суть полягала в побудові нескінченної множини натуральних чисел, де жодне число не ділить суму двох більших. Також AI розкусив задачу №125 від 1996 року про щільність сум у системах числення з основами 3 та 4, використавши нетривіальний трюк із наближенням степенів трійки та четвірки.

На цьому математичному погром не закінчився. Агент також закрив 44 відкриті гіпотези з Онлайн-енциклопедії цілочислових послідовностей (OEIS), 15-річну задачу про функції Гільберта в алгебраїчній геометрії та навіть покращив оцінку збіжності для одного з алгоритмів опуклої оптимізації.

Конструкція системи виглядає напрочуд простою. Агент отримує файл мовою програмування Lean, де замість доведення стоїть пуста заглушка. Модель Gemini 3.1 Pro генерує чернетку, компілятор Lean працює як злий вчитель геометрії, повертаючи помилки, а модель виправляє код, доки той нарешті не скомпілюється.

Для солідності в науковій статті DeepMind накрутили поверх цього еволюційний алгоритм, де суб-агенти на базі Gemini 3.0 Flash порівнювали чернетки між собою та виставляли їм шахові Elo-рейтинги. Також AI міг за потреби викликати AlphaProof — спеціалізовану модель для олімпіадної математики.

Проте, коли автори вирішили перевірити ефективність цих наворотів і запустили спрощену версію агента, вони отримали красивий ляпас від власного дітища. Звичайна зв'язка з однієї Gemini 3.1 Pro та компілятора без жодних еволюційних надбудов закрила всі 9 задач. Водночас розпіарена математична модель AlphaProof без великої мовної моделі поруч не вирішила взагалі нічого.

Розробники прямо визнали масштабний зсув від створення складних спеціалізованих систем до простих циклів на базі стандартних LLM.

Джерело: arXiv

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

13/24

Бита Видра

і нащо я вчив матан в універі якщо джеміні за двісті баксів робить це краще за професорів

+6 по ділуМатан в універі — це був просто тренінг з виживання, а не навчання
Лінива Кракениця

еволюційні алгоритми та шахові рейтинги просто щоб розпилити бюджет гугла, класика)

+6 по ділуРозпил бюджету — це єдина математична задача, яку Гугл вирішує без помилок
Nevermind

Ну діпи взагалі молодці, що призналися. Мало би кому яєць вистачило 😉

+1 жартикПризнатися в тому, що ти програв машині — це вже перший крок до прийняття