По-големите модели могат да извършат по-голямо разнообразие от действия, но

...
По-големите модели могат да извършат по-голямо разнообразие от действия, но
Коментари Харесай

Малките езикови модели са новата мода, твърдят учените

По-големите модели могат да извършат по-голямо многообразие от дейности, само че понижената дълбочина на по-малките модели ги прави доста привлекателни принадлежности.

Големите езикови модели работят добре, тъй като са в действителност големи. Най-новите модели на OpenAI, Meta и DeepSeek употребяват стотици милиарди параметри – регулируеми „ бутони “, които дефинират връзките сред данните и се трансформират по време на процеса на образование. С повече параметри моделите са в положение да разпознават по-добре закономерностите и връзките, което от своя страна ги прави по-мощни и точни.

Но тази мощност си има своята цена. Обучението на модел със стотици милиарди параметри изисква големи изчислителни запаси. Така да вземем за пример, с цел да образова своя модел Gemini 1.0 Ultra, Гугъл е похарчила 191 милиона $. Големите езикови модели (LLM) също по този начин изискват забележителна изчислителна мощ всякога, когато дават отговор на поръчка, което ги прави пословично огромни потребители на сила. По данни на Института за проучване на електрическата сила една поръчка към ChatGPT употребява към 10 пъти повече сила от едно търсене в Гугъл.

В отговор на това някои откриватели към този момент мислят за по-малки езикови модели. IBM, Гугъл, Microsoft и OpenAI наскоро пуснаха дребни езикови модели (SLM – small language models), които употребяват единствено няколко милиарда параметъра – дребна част от техните аналози LLM.

Малките модели не се употребяват като принадлежности с общо предопределение, както техните по-големи братовчеди. Но те могат да се оправят чудесно със характерни, по-тясно дефинирани задания, като да вземем за пример обобщаване на диалози, отговаряне на въпроси на пациентите в качеството на чатбот за здравни грижи и събиране на данни в смарт устройствата.

„ За доста задания един модел с 8 милиарда параметри в действителност е много добър “, споделя Зико Колтър, компютърен академик в университета Карнеги Мелън.

Освен това те могат да работят на преносимия компютър или на мобилния телефон, вместо в един голям център за данни. Няма консенсус за точното определение на „ дребен “, само че всички нови модели от този вид имат оптимален брой параметри към 10 милиарда

За да усъвършенстват процеса на образование на тези дребни модели, откривателите употребяват няколко трика. Големите модели постоянно извличат сурови данни за образование от интернет, а тези данни нормално са дезорганизирани, разхвърляни и сложни за обработка. След това обаче тези огромни модели могат да генерират първокачествен набор от данни, който може да се употребява за образование на един дребен модел. Подходът, наименуван „ филтрация на знанията “, кара по-големия модел дейно да съобщи образованието си, сходно на преподавател, който дава уроци на възпитаник.

„ Причината, заради която [SLM] се оправят толкоз добре с толкоз дребни модели и толкоз малко данни, е, че те употребяват висококачествени данни вместо разхвърляни материали “, споделя Колтър.

Изследователите също по този начин са търсили способи за основаване на дребни модели, започвайки с огромни модели, като последователно ги редуцират. Един от методите, прочут като „ изрязване “, включва унищожаване на ненужните или неефективни елементи от невронната мрежа – разрасналата се мрежа от свързани данни, която е в основата на огромния модел.

Изрязването е въодушевено от действителната невронна мрежа – човешкия мозък, който покачва успеваемостта си посредством спиране на връзките сред синапсите с напредването на възрастта. Днешните подходи за изрязване водят началото си от публикация от 1989 година, в която компютърният академик Ян Лекун, в този момент в Meta, твърди, че до 90% от параметрите на една подготвена невронна мрежа могат да бъдат отстранени, без да се наруши нейната успеваемост. Той назовава метода „ оптимално увреждане на мозъка “. Изрязването може да помогне на откривателите да уточняват един дребен езиков модел за съответна задача или среда.

За откривателите, които се интересуват от това по какъв начин езиковите модели вършат нещата, по-малките модели оферират на ниска цена метод за тестване на нови хрумвания. И защото те имат по-малко параметри от огромните модели, техните разсъждения могат да бъдат по-прозрачни.

„ Ако желаете да създадете нов модел, би трябвало да опитате разнообразни неща “, споделя Лешем Чошен, учен-изследовател в лабораторията за изкуствен интелект MIT-IBM Watson. „ Малките модели разрешават на откривателите да опитват с по-ниски залози. “

Големите, скъпи модели, с техните непрекъснато увеличаващи се параметри, ще останат потребни за приложения като универсални чатботове, генератори на изображения и разкриване на нови медикаменти. Но за доста консуматори един дребен, целеустремен модел ще работи също толкоз добре, като в това време е по-лесен за образование и създаване от страна на откривателите.

„ Тези ефикасни модели могат да спестят пари, време и калкулации “, споделя още Чошен.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР