Запознайте се с Instella Math: езиковият модел на AMD с поддръжка на разсъждения
AMD показа Instella Math — езиков модел, предопределен за решение на проблеми, изискващи комплицирани логичен структури. Отбелязва се, че това е първият модел, който употребява образование с укрепване, основано на дълги вериги от разсъждения, и в същото време — основан напълно на графичните процесори на AMD.
Проектът е основан на Instella 3B Instruct, чиито благоприятни условия бяха разширени с многоетапен цикъл на образование: два стадия на следена фина конфигурация и три стадия на образование с укрепване, употребявайки метода VERL. Всичко това е осъществено въз основата на ускорителите AMD Instinct MI300X.
Instella Math
Instella Math — това е първият езиков модел на AMD за разсъждения, с 3 милиарда параметъра, подготвен на клъстер от 32 ускорителя AMD Instinct MI300X. Instella Math е с изцяло отворен код: неговата архитектура, код за образование, тегла и набори от данни са с отворен код. Базовият модел Instella 3B Instruct също е с отворен код, в това число и резултатите от фината конфигурация на дилемите за размишление.
Моделът е построен върху софтуерния стек AMD ROCm и употребява ефикасни разпределени способи за образование, в това число образование с укрепване, работещи на четири MI300X клъстера (по 8 графични процесора всеки).
Наследявайки архитектурата Instella 3B Instruct, Instella Math е усъвършенствана за многоетапен логичен разбор, решение на математически задания и работа с вериги от разсъждения. Процесът на образование включва два стадия на следена фина конфигурация и три стадия на образование с укрепване, употребявайки логаритъма GRPO.
2
Фина конфигурация с контрол
За Instella Math беше употребена двуетапна скица за фина конфигурация, с цел да се развие последователно способността за размишление на Instella 3B Instruct. Първият стадий включва фина конфигурация на образованието, обхващаща математическите тематики. Вторият стадий включва образование на модела, с цел да дава изчерпателен разбор и ясно структурирани логичен стъпки, нужни за решение на проблеми на равнище математически олимпиади.
Етап 1: указания за донастройка с OpenMathInstruct 2
В първия стадий на следената фина конфигурация (SFT), моделът е подготвен да следва тъкмо указания и формат заявка-отговор или задача-решение. Избраният набор от данни е OpenMathInstruct 2, който съдържа 14 милиона двойки задача-решение, генерирани от обучителните комплекти GSM8K и MATH. Корпусът обгръща необятен набор от тематики — от аритметика и алгебра до доктрина на вероятностите и разбор.
Етап 2: Дълбоко размишление с дълъг подтекст върху AM DeepSeek R1 Distilled
Вторият стадий от следената фина конфигурация има за цел да ускори уменията за размишление на модела. За тази цел е употребен AM DeepSeek R1 Distilled 1.4M — огромен набор от висококачествени, комплицирани проблеми. На този стадий дължината на подтекста е увеличена от 4000 токена на 32 000 токена, тъй че моделът да може да се учи върху дългите вериги от разсъждения, отделени от огромните, профилирани модели като DeepSeek R1.
Обучение с укрепване
Етап 1: GRPO с 8 разновидността за внедряване и 8 хиляди токена на Big Math
В първия стадий на образованието с укрепване, употребявайки логаритъма за групова относителна оптимизация на политиките (GRPO), моделът е подготвен върху Big Math RL Verified set — деликатно подбрана сбирка от комплицирани многостъпкови математически задания. За една поръчка моделът генерира 8 подробни отговора, всеки с размер до 8 хиляди токена, което разрешава проучването на разнообразни траектории на размишление. Обучението е извършено в границите на 1200 GRPO стъпки, употребявайки правила за награди, създадени от Prime RL, които предизвикват верните решения в дадения формат. Процесът е разпределен в 16 MI300X графични процесора в 2 клъстера, а библиотеките VERL и VLLM са обезпечили устойчиво и дейно събиране на сканирания, оценка на премиите и актуализиране на политиките.
Етап 2: GRPO се уголемява до 16 внедрявания и 16 000 токена в DeepMath
За да се доближат границите на дългите вериги от разсъждения, вторият стадий на GRPO е извършен върху набора от данни DeepMath. Тук за всяка поръчка са основани 16 разновидността за отговор с размер до 16 хиляди токена. Този стадий е имал за цел да усили оптимално капацитета на модела в дълбокия математически разбор — решение на проблеми, които изискват дълги заключения, вложени логичен стъпки или сходство на официални доказателства. Обучението е извършено на 32 графични процесора MI300X, състоящи се от 4 клъстера и дълготрайност 600 GRPO стъпки.
Етап 3: GRPO с 16 внедрявания и 16 000 токена на DeepScaleR
За да се усъвършенства точността на дилемите на интернационално равнище на олимпиада, третият стадий на GRPO е стартиран върху комплекта DeepScaleR, съдържащ истински задания от AIME (1984–2023) и AMC (до 2023 г.). Както и във втория стадий, моделът генерира 16 сканирания от по 16 хиляди токена всяко. Обучението е извършено на 32 графични процесора MI300X (4 клъстера) и е траяло 740 GRPO стъпки.
3
Използвайки същата методология за оценяване като DeepScaleR 1.5B, таблицата демонстрира точността Pass@1, осреднена за 16 отговора. Instella Math се показва конкурентно в състезание с водещи компактни модели с отворен код, като Deepseek R1 Distilled Qwen 1.5B, Still 3 1.5B, DeepScaleR 1.5B и SmolLM3 3B.
Обучението с укрепване показва висока продуктивност: Instella Math е подобрил резултата на своята версия спрямо Instella Math SFT с 10,81 точки, до момента в който облагата на DeepScaleR по отношение на базовия модел (Deepseek R1 Distilled Qwen 1.5B) беше единствено 6,22 точки.
4
Instella Math е тестван и с новия бенчмарк TTT Bench, който прави оценка стратегическото, пространствено и логическото мислене. Забележителното тук е, че макар че не е получил нито един образец за данни за образование в жанр TTT Bench или сходни стратегически игри на нито един от подготвителните стадии, Instella Math е посочил най-хубавия резултат измежду всички тествани модели.
Най-важното е, че сходно на Olmo2 и SmolLM 3B, Instella Math е изцяло отворен езиков модел — във връзка с данните за образование на базовата версия (Instella 3B), следеното тънко конфигуриране и стадиите на образование с укрепване. За разлика от Instella Math, доста съперници разгласяват единствено приключените модели, като в същото време резервират поверителността на базовите данни за образование (напр. Qwen 1.5B) и процесите на обособяване при размишление (напр. Deepseek R1).




