Много малките езикови модели (SLM) могат да надминат водещите големи

Как мащабирането по време на тестване разкрива скритите способности за разсъждение в малките езикови модели

Много дребните езикови модели (SLM) могат да надминат водещите огромни езикови модели (LLM) в дилемите за размишление, според ново изследване на Shanghai Artificial Intelligence Lab. Авторите демонстрират, че с верните принадлежности и техники за мащабиране по време на тестването, SLM с 1 милиард параметри може да надмине LLM 405B при комплицирани математически проби.

Способността да се употребява SLM в комплицираните задания за логическо мислене може да бъде доста потребна, защото компаниите търсят нови способи за използване на тези нови модели в разнообразни среди и приложения.

Мащабирането по време на тестванията (TTS) —- процесът по даване на LLM на спомагателни изчислителни запаси по време на логичен извод, с цел да се усъвършенства тяхната продуктивност при осъществяване на разнообразни задания. Водещи модели за логичен заключения като OpenAI o1 и DeepSeek-R1 употребяват „ вътрешен TTS “, което значи, че са подготвени да „ мислят “ постепенно посредством генериране на дълга поредност от токени за верига на мисълта (CoT).

Алтернативен метод се явява „ външен TTS “, където продуктивността на модела се усъвършенства (както подсказва името) външно. Външният TTS е подобаващ за пренасочване на съществуващите модели за решение на проблеми с разсъжденията без в допълнение тънко конфигуриране. Външната конфигурация на TTS нормално се състои от „ модел на политиката “, който е главният LLM, генериращ отговора и моделите на заплащане на процеса (PRM), който прави оценка отговорите на модела на политика. Тези два съставния елемент са свързани дружно посредством способ за избор или търсене.

Най-простата конфигурация — това е „ best-of-N “, където моделът на политика генерира голям брой отговори и PRM избира един или повече най-хубави отговори, с цел да образува крайния отговор. По-усъвършенстваните външни TTS способи употребяват търсене. При “търсене по лъч “ моделът разделя отговора на няколко стадия.

На всеки стадий той избира няколко разновидността за отговор и ги пуска през PRM. След това избира една или повече съвпадащи варианти и генерира идната стъпка от отговора. А при „ търсене по голям брой разновидности на отговор “ (DVTS) моделът генерира няколко разновидността за отговор, с цел да сътвори по-разнообразен набор от вероятни отговори, преди да ги комбинира в финален отговор.

Изборът на вярната тактика за превръщане на текста в тирада зависи от доста фактори. Авторите на проучването са провели систематично привикване на това, по какъв начин другите модели на политики и софтуерни решения въздействат върху успеваемостта на методите за превръщане на текст в тирада.

Техните резултати демонстрират, че успеваемостта зависи значително от политиките и моделите на PRM. Например, за дребни модели на политики, методите, основани на търсене, превъзхождат метода “най-доброто от N “. За огромните модели на политики обаче последният способ е по-ефективен, защото моделите имат по-добри благоприятни условия за логическо размишление и не се нуждаят от модел на заплащане за инспекция на всяка стъпка от логическото размишление.

Техните резултати също демонстрират, че вярната TTS тактика зависи от сложността на задачата. Например, за дребните модели на политики с по-малко от 7 милиарда параметъра, методът “най-доброто от N “ е по-подходящ за елементарни проблеми, до момента в който методът за “най-добро търсене “ е по-подходящ за по-сложните проблеми. За модели на политики със 7 до 32 милиарда параметри, “разнообразно търсене по дърво “ е доста подобаващ за елементарни и междинни проблеми, до момента в който методът “най-добро търсене “ е подобаващ за комплицираните проблеми. Но за огромните модели на политики (72 милиарда параметъра или повече) методът “най-доброто от N “ е най-благоприятен за всички равнища на трудност.

Въз основа на тези резултати разработчиците могат да проектират изчислително оптимални TTS тактики, които вземат поради модела на политиката, PRM и сложността на казуса, с цел да употребяват най-добре изчислителните запаси за решение на логичен задания.

Например, откривателите откриха, че моделът Llama-3.2-3B, с изчислително оптимална TTS тактика, превъзхожда Llama-3.1-405B по индикаторите MATH-500 и AIME24 в два комплицирани математически теста. Това демонстрира, че SLM може да надмине модел, който е 135 пъти по-голям, когато употребява оптимална за изчисленията TTS тактика.

В други опити са разкрили, че моделът Qwen2.5 с 500 милиона параметъра може да надмине GPT-4o при вярната тактика за синтез на речта, която е усъвършенствана за калкулации. Използвайки същата тактика, версията с 1,5 милиарда параметъра на DeepSeek-R1 надмина o1-preview и o1-mini на тестванията MATH-500 и AIME24.

Като се вземат поради разноските за образование и изводите, резултатите демонстрират, че при потребление на тактики за мащабиране и когато са усъвършенствани за пресмятане, SLM могат да надминат по-големите модели със 100–1000 пъти по-малко интервенции с плаваща запетая.

Резултатите от проучването демонстрират, че TTS с оптимално пресмятане доста усъвършенства способността за логическо размишление на езиковите модели. Въпреки това, с увеличение на размера на модела, TTS последователно губи успеваемост.

„ Това допуска, че успеваемостта на TTS е директно обвързвана със способността на модела за политика да разсъждава разумно “ — пишат откривателите. „ По-специално, за модели със слаби логичен качества за мащабиране, изчисленията по време на тестванията водят до доста усъвършенстване, до момента в който моделите със мощни логичен качества за извод са лимитирани. “

Проучването удостоверява, че SLM могат да работят по-добре от по-големите модели, когато употребяват способи за мащабиране на времето за тестване и усъвършенстване на изчисленията. Въпреки че това изследване се концентрира върху тестванията по математика, откривателите възнамеряват да го разширят до други задания, които изискват логическо мислене, като програмиране и химия.