Лабораторията за изкуствен интелект на Microsoft представи Orca 2

В редица задачи малкият езиков модел на Microsoft се оказа по-интелигентен от големите

Лабораторията за изкуствен интелект на Microsoft показа Orca 2 – двойка дребни езикови модели, които са толкоз положителни и даже по-добри от езиковите модели, които са 5-10 пъти по-големи от тях. Моделите се оферират в два вида – 7 и 13 милиарда параметри, и употребяват за основа истинския 13B Orca, който към този момент показва превъзходни мисловни качества.

„ Използвайки Orca 2 като образец, ние продължаваме да демонстрираме, че усъвършенстваните обучителни способи могат да оказват помощ на по-малките модели да реализират качества за мислене от по-висок порядък, които нормално участват единствено в по-големите езикови модели “, пишат разработчиците в обява в своя блог.

Microsoft отвори достъп до двата модела, с цел да проучва и изследва в допълнение опциите на дребните езикови модели, които съгласно разработчиците могат да покажат не по-малко високи резултати от огромните. За предприятията с лимитирани запаси сходни системи могат да бъдат най-хубавото решение, написа Venture Beat.

За да научат един дребен модел да мисли също толкоз добре, колкото един огромен, разработчиците вземат решение да персонализират главния Llama 2, като употребяват особено събран набор от данни. Вместо да го научат да възпроизвежда държанието на по-способните модели посредством метода на имитацията, откривателите са го предиздвикали да избере други тактики за решение на проблемите. Например, с цел да отговори на комплициран въпрос, за един дребен езиков модел е по-удобно първо да го разбие на съставните му елементи, вместо да отговори непосредствено, както прави GPT-4.

При тестванията на 15 контролни теста, обхващащи схващане на езика, здрав разсъдък, многостъпкови разсъждения, решение на математически задания, четене с схващане, обобщаване и правота, и двата модела Orca 2 се показаха чудесно – също толкоз добре или по-добре от моделите, които са 5-10 пъти по-големи.

Средно за всички проби Orca 2 се показа по-добре от Llama-2-Chat с 13 и 70 милиарда параметри и WizardLM с 13 и 70 милиарда параметри. Само при дилемите по математика WizardLM със 70 милиарда параметри е доста по-добър.

Според разработчиците методът, който са употребявали за образованието на Llama-2, може да се употребява и за възстановяване на други базови модели.