Nvidia прискорила мовні моделі в 4 рази через Nemotron-Labs Diffusion

Часи, коли штучний інтелект ліниво витискав із себе по одному слову на секунду, схоже, добігають кінця завдяки геніальному трюку, який змінює правила гри.

Компанія Nvidia випустила нове відкрите сімейство моделей Nemotron-Labs Diffusion на платформі Hugging Face, які видають неймовірні 865 токенів на секунду на флагманському чипі B200. Лінійка складається з версій на 3, 8 та 14 мільярдів параметрів, а також мультимодальної моделі на 8 мільярдів, що вміє працювати з картинками.

Головна фішка технології ховається під назвою 'self-speculation' (самоспекуляція). Зазвичай для прискорення генерації розробники використовують 'тягништовхая' з двох нейромереж: крихітна моделька швидко накидує чернетку тексту, а велика й розумна її перевіряє. В Nvidia вирішили, що тримати двох рабів замість одного — це занадто жирно, і змусили одну й ту саму модель працювати за двох. Вона спочатку генерує чернетку в дифузійному режимі, а потім сама ж себе перевіряє у звичайному авторегресійному.

Весь секрет у тому, як влаштовані графічні чипи, які більшість часу банально 'чекають', поки важкі ваги моделі завантажаться з пам'яті. Новий підхід дозволяє обробляти в середньому від 5 до 7 токенів за один прохід замість одного. Найприємніше те, що при детермінованій генерації результат збігається з класичним повільним методом до останнього біта, даючи абсолютно безкоштовне прискорення.

Під час тестів модель Nemotron-Labs Diffusion 8B обійшла за точністю Qwen3 8B на 1,2%. На бенчмарку SPEED-Bench новинка виявилася у 2,4 раза швидшою за зв'язку Qwen3 з технологією Eagle3, яку до цього вважали еталоном швидкісного декодування. На складних завданнях із програмування та математики модель від Nvidia стабільно приймала 8,69 токена за крок проти скромних 2,81 у конкурента.

Цей підхід, заснований на дослідженні Efficient-DLM, теоретично можна застосувати до будь-яких відкритих моделей на кшталт Llama від Meta або китайської DeepSeek. Водночас закритим гігантам на кшталт OpenAI, Anthropic чи Google доведеться серйозно переписати свої секретні архітектури, щоб отримати такий же буст.

Поки весь світ сперечається про нестачу відеокарт, залізничний гігант вирішив навести лад ще й у софті, безкоштовно помноживши швидкість роботи моделей на чотири. Закритим лабораторіям із їхніми платними підписками за повільні чат-боти тепер доведеться дуже сильно постаратися, щоб пояснити користувачам, за що ті взагалі платять гроші.

Джерело: Hugging Face

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

15/24

Безсонна Ворона

нарешті нормальне прискорення без урізання мізків моделі до рівня хлібця

+5 по ділуНарешті прискорення, яке не перетворює модель на овоч
Квантова Лисиця

нвідіа просто монополізує взагалі все, скоро і повітря через їхні тензорні ядра будемо качати

+4 по ділуНвідіа скоро буде монополізувати навіть повітря в кімнаті
Холодна Чайка

оце топчик тепер локальні моделі будуть літати навіть на середньому залізі

+6 по ділуЛокальні моделі на середньому залізі — це те, заради чого варто жити