Google випустила DiffusionGemma: ШІ, що генерує текст наче картинку

Забудьте про покіловатне витискання літер, як у чат-ботах минулого століття. Google викотила експериментальну відкриту модель, яка ставиться до слів як до пікселів, вимальовуючи цілі абзаци з хаосу. Це найрадикальніший зсув у мисленні AI за роки.

Класичні мовні моделі пишуть текст як перелякані студенти на іспиті — вигадуючи кожне наступне слово зліва направо та боячись зробити крок назад. Нова розробка Google DeepMind під назвою DiffusionGemma працює зовсім інакше, копіюючи логіку генераторів зображень. Вона стартує з абсолютно "зашумленого" полотна з випадкових токенів-заглушок і за кілька швидких проходів перетворює цей цифровий хаос на готовий осмислений блок із 256 токенів за один раз.

В основі цього дива лежить архітектура суміші експертів Gemma 4 26B A4B на 26 мільярдів параметрів, з яких в один момент працюють лише 3,8 мільярда — приблизно як мозок підлітка під час прибирання кімнати. Завдяки такій оптимізації стиснута версія моделі легко вміщується у 18 ГБ відеопам'яті, що дозволяє запускати її локально на звичайних домашніх відеокартах.

Головна фішка тут — космічна швидкість. Якщо звичайні мовні моделі під час локального запуску страждають від низької пропускної спроможності пам'яті, то дифузійний підхід перекладає роботу на обчислювальні ядра, яких у сучасного заліза з надлишком. У результаті модель видає понад 700 токенів на секунду на RTX 5090 та пробиває планку в 1000 токенів на секунду на професійних прискорювачах NVIDIA H100.

Технологія Uniform State Diffusion дозволяє моделі фіксувати слова, у яких вона впевнена на сто відсотків, і використовувати їх як контекст для сусідніх областей. На відміну від класичних нейромереж, які не можуть виправити вже написану дурність, двонаправлена увага всередині блоку дає моделі унікальну здатність до самокорекції та редагування тексту прямо в процесі генерації, доки результат не покажуть користувачу.

Для демонстрації сили розробники змусили модель вирішувати судоку — завдання, на якому класичні послідовні AI зазвичай ламають зуби. Початкова версія розв'язувала рівно 0% головоломок, але після швидкого донавчання на фреймворку JAX показник успіху миттєво злетів до 80% при дуже швидкій збіжності.

Проте без ложки дьогтю не обійшлося: загальні тести показують, що за рівнем чистого інтелекту DiffusionGemma все ж таки поступається стандартній версії, роблячи ставку на швидкість, а не на глибину аналізу.

Спільнота вже щосили інтегрує новинку в популярні інструменти на кшталт vLLM, MLX та llama.cpp. Хоча модель навряд чи замінить повноцінних текстових помічників просто зараз, традиційний послідовний підхід до генерації тексту отримав серйозний удар під дих, змушуючи індустрію замислитися над повним переосмисленням архітектури AI.

Джерело: Google Developers Blog

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

12/24

Рекурсивна Криптовалюта

нарешті нормальні інновації, а не просто збільшення контекстного вікна до безкінечності

+4 по ділуFinally, someone who realizes that infinite context windows are just a fancy way to hallucinate more confidently
Кешована Залежність

це типу як стабільна дифузія тільки для літер? прикольно, але поки воно тупіше за звичайну джемму, практичної користі мало

+6 по ділуComparing it to image diffusion is a clever analogy, even if the model is currently a bit of a dim bulb
Пропатчена Модель

18 гб відеопам'яті це 'домашня відеокарта'? вони там у гуглі взагалі ціни бачили?

+2 емоційноThe user is rightfully offended that Google thinks everyone has a server farm in their living room

Google випустила DiffusionGemma: AI, що генерує текст наче картинку

Коментарі