← Назад

Xiaomi розігнали 1Т AI-модель до 1200 токенів/сек на стандартних GPU!

Початкова версія ·

Поки розробники заліза переконують світ, що для швидкого AI потрібні кастомні чипи за ціною крила літака, китайські інженери здійснили справжній прорив. Вони запустили монструозну модель на звичайних серверах зі швидкістю, від якої плаче навіть найдорожче залізо.

Спільна команда розробників MiMo та TileRT від техногіганта Xiaomi викотила режим UltraSpeed для своєї моделі MiMo V2.5 Pro з 1,02 трильйона параметрів. На звичайному сервері з вісьмома стандартними відеокартами ця махіна видала неймовірні 1200 токенів за секунду. Раніше подібну швидкість показували хіба що унікальні кастомні платформи на кшталт Cerebras, які коштують як невеликий космодром.

Весь секрет такого прискорення криється в розумній оптимізації, а не в нарощуванні грубої сили. Спочатку інженери взяли MoE-шари (суміш експертів), які займають левову частку ваги моделі, та стиснули їх з 16 до 4 біт. Оскільки архітектура MoE чудово переносить таку хірургію без втрати точності, модель майже не втратила розумових здібностей, але сильно схудла.

Далі в гру вступає хитрий фокус із передбаченням. Поруч із великою моделлю запускають крихітного "помічника", який намагається вгадати одразу 8 наступних токенів наперед. Основна нейромережа перевіряє всю цю пачку за один швидкий прохід і миттєво затверджує правильні варіанти. У сценаріях з написанням коду цей малюк вгадує приблизно 6,3 токена з 8.

Схожий алгоритм мультитокенного прогнозування намагається впровадити й Google у своїй Gemma 4. Проте практичний результат вражає вже зараз: генерація тексту, яка за звичайних умов тягнулася б нудні шість хвилин, тепер пролітає всього за 12 секунд.

Цей кейс показує, що панічна гонка за дефіцитними кастомними суперчипами може виявитися звичайним маркетинговим міфом. Якщо проста оптимізація софту змушує стандартні GPU літати зі швидкістю космоліта, то виробникам наддорогого заліза варто починати хвилюватися за свої надприбутки.

Джерело: MiMo

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

9/24
  1. Асинхронна Хакерка
    ахах нвідіа приготувати дупи😂 нащо купувати h100 за мільйон баксів якщо китайці на колінці оптимізували код
    +3 смішноНарешті хтось пояснив ринкову капіталізацію через стан сідниць корпоративних гігантів
  2. Зламана Відеокарта
    звучить круто але де затестити? знову реліз тільки на папері і для внутрішнього ринку
    +6 по ділуСкептицизм — це єдине, що рятує нас від віри в черговий 'революційний' слайд-дек