Моделът с 1 млрд. параметри не изисква връзка с електронен

...
Моделът с 1 млрд. параметри не изисква връзка с електронен
Коментари Харесай

Meta представи MobileLLM-Pro – модел работещ без облак, който съдържа 128 хил. токена

Моделът с 1 милиарда параметри не изисква връзка с електронен облак.

Meta Reality Labs показа MobileLLM-P1 (Pro) – стилен езиков модел с 1 милиарда параметри, предопределен да работи без връзка с облак. Той може да извършва нормални задания като отговаряне на въпроси, перифразиране и обобщаване на текст непосредствено на устройството – локално. Моделът и файловете му са налични в уеб страницата Hugging Face.

В серията MobileLLM има два разновидността: съществена и авансово подготвена образователна версия. И двата са с отворен код и включват подготвени контролни точки (checkpoints) за процесори и мобилни ускорители.

Според Meta базовата версия на MobileLLM-Pro се показва по-добре от Gemma 3 1B и Llama 3.2 1B – с 5,7% и 7,9% по-високо при дилемите за разсъждаване, добиване на познания и дълъг подтекст. Моделът е подготвен върху размер от по-малко от 2 трилиона изцяло експонирани лексеми.

Моделът разполага с подтекст от до 128 000 токена. Това разрешава да се проучват дълги документи и да се извлича информация от огромни текстове. За да ускорят работата, разработчиците употребяват композиция от локално и световно внимание (съотношение 3:1). Този метод понижава латентността съвсем на половина и понижава размера на кеша на KV от 117 MB на 40 MB.

MobileLLM-Pro поддържа 4-битово квантуване с минимална загуба на качество – не повече от 1,3%. За CPU той употребява int4 (тегла), int8 (активации и KV кеш) с регресия от 0,4%. За ускорители (напр. Apple ANE и Qualcomm HTP) – 1,3%.

Архитектурата има 30 пласта, 20 глави за внимание (4 от тях KV), размер на скрития пласт 6144 и речник от 202 048 лексеми. Общо 1,08 милиарда параметри. По време на образованието Лама 4-Scout е служила като преподавател.

При тестванията моделът сподели: 67,1% в HellaSwag, 76,2% в BoolQ, 76,6% в PIQA, 50,9% в SocialIQA и 39,9 % в TriviaQA. В ARC-c той е 52,6%, в ARC-e – 76,3 %, а в WinoGrande – 62,8%.

Предварително подготвената с указания версия реализира 44,8% в MMLU, 62 % в IFEval, 59,8 % в HumanEval и 58,4% в HellaSwag.

Обучението се е състояло на три стадия: проучване на езика, разширение на подтекста до 128 хиляди и образование в разнообразни области. След това за 4-битовите версии е добавено образование, съобразено с количествените параметри (QAT). Фазата на предварителното образование с указания включва SFT и DPO с акцент върху сигурността и точността.

Моделът беше тестван на Samsung Galaxy S25 и S24. При 2000 токена предварителното добиване лиши 8,9 s на CPU и 1,96 s на HTP, до момента в който при 8000 токена лиши надлежно 63,5 s и 9,8 s.

MobileLLM-Pro е подготвен върху 1,64 трилиона токена от набори от данни с отворен код в региона на образованието, науката, кода и математиката. Предварителното образование на инструкциите е осъществено върху смесени и синтетични набори от данни.

Моделът се популяризира под лиценза FAIR NC.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР