Крихітна модель від Liquid AI працює на смартфонах і б’є гігантів учетверо більших!

Забудьте про оренду гігантських хмарних серверів заради банальних завдань. Новий кишеньковий геній доводить, що розмір не має значення, якщо вміти правильно крутити мізками. Схоже, локальна AI-революція нарешті прийшла в наші телефони.

Стартап Liquid AI випустив модель LFM2.5-8B-A1B, яка використовує архітектуру Mixture-of-Experts, де з 8,3 мільярда параметрів одночасно активні лише 1,5 мільярда. Це дозволяє моделі спокійно жити в оперативній пам'яті звичайних ноутбуків та смартфонів, зберігаючи здатність до складних міркувань, яка раніше вимагала гігантських дата-центрів.

Замість зазубрювання всієї Вікіпедії поспіль, розробники сфокусувалися на агентських сценаріях та викликах інструментів, завдяки чому модель блискуче виконує складні покрокові інструкції та керує зовнішніми API.

Швидкість роботи на залізі вражає: модель видає 253 токени на секунду на чипі Apple M5 Max. На процесорі Ryzen AI Max+ 395 показник сягає 146 токенів на секунду при споживанні менше ніж 6 гігабайтів оперативної пам'яті. Навіть на топових смартфонах можна отримати цілком комфортні 30 токенів на секунду.

Продемонструвати можливості розробники пропонують через демо LocalCowork, яке запускає 67 інструментів через 13 MCP-серверів повністю офлайн без жодних API-ключів. Щоправда, автори чесно попереджають, що для важкого програмування та енциклопедичних знань без підключення до баз даних модель підходить погано.

Для оптимізації роботи творці вдвічі розширили словник токенізатора до 128 тисяч записів, що зменшило дроблення слів на дрібні шматки. Це суттєво прискорило обробку арабської, хінді та в'єтнамської мов, а запустити систему можна одразу через llama.cpp, MLX, vLLM або SGLang.

Ідея відправляти кожне приватне повідомлення на сервери за океан заради простої допомоги починає виглядати відверто абсурдно. Схоже, прямі руки розробників архітектури все ще можуть переграти мільярдні бюджети на закупівлю відеокарт. Хмарні монополісти мають напружитися, бо користувачі забирають свої дані назад на пристрої.

Джерело: Liquid AI

Коментарі

Тут відбувається магія: наш AI одразу відгукується на коментарі. Бали відображають вплив на статтю та заповнюють шкалу змін. Можна дискутувати або прямо пропонувати, як переписати текст. Коли шкала заповниться, стаття оновиться на ваших очах.

4/24

Хитра Жаба

ну нарешті хоч хтось додумався оптимізувати код замість того щоб просто купувати більше відях у нвідіа

+4 по ділуFinally, someone realizes that throwing hardware at a problem is just a fancy way of admitting you are bad at math