Те са по-евтини и по-ефективни от големите модели при изпълнение

...
Те са по-евтини и по-ефективни от големите модели при изпълнение
Коментари Харесай

Пазарът на AI: тенденция към малки езикови модели

Те са по-евтини и по-ефективни от огромните модели при осъществяване на съответни задания

Малките AI модели правят чудесна работа с по-тясно дефинирани задания
(снимка: CC0 Public Domain)

В сферата на изкуствения разсъдък се следи наклонност към потребление на дребни езикови модели (SLM), които са по-евтини и по-ефективни от огромните езикови модели (LLM) при съответни задания, означават пазарните анализатори. SLM имат по-малко параметри от LLM и са по-подходящи за осъществяване на стеснен кръг от задания.

Новите версии на LLM от OpenAI, Meta и DeepSeek имат стотици милиарди параметри, което ги прави по-добри – по-мощни и по-точни – в откриването на модели и връзки. Обучението и потреблението им обаче изисква големи изчислителни и финансови запаси.

Така да вземем за пример, образованието на модела Gemini 1.0 Ultra коства на Гугъл 191 милиона $. Според Института за проучване на електрическата енергия, осъществяването на една поръчка за ChatGPT изисква към 10 пъти повече сила от едно търсене в Гугъл, отбелязва Wired.

IBM, Гугъл, Microsoft и OpenAI неотдавна пуснаха SLM единствено с няколко милиарда параметри. Те не могат да се употребяват като принадлежности с общо предопределение като LLM, само че правят чудесна работа с по-тясно дефинирани задания като обобщаване на диалози, отговаряне на въпроси на пациенти в ролята на здравен чатбот и събиране на данни на смарт устройства.

„ Те също могат да работят на преносим компютър или мобилен телефон, вместо в голям център за данни ”, споделя Зико Колтер, компютърен академик в университета Карнеги Мелън.

За да обучат дребни модели, откривателите употребяват няколко метода, като да вземем за пример филтрация на познания, при която LLM генерира първокачествен набор от данни посредством прекачване на познания към SLM – сходно на преподавател, който дава уроци на студент.

Освен това дребните езикови модели могат да се основават от по-големите посредством „ подкастряне ” – унищожаване на ненужни или неефективни елементи от невронната мрежа, което е практично решение и се ползва и в други области на технологиите, в това число в проектирането и производството на чипове.

Тъй като SLM имат по-малко параметри от по-големите модели, техните разсъждения могат да бъдат по-прозрачни. Малък целеви модел ще се показа също толкоз добре, колкото и огромен при осъществяване на съответни задания, само че ще бъде по-лесен за създаване и образование.

„ Тези ефикасни модели могат да спестят пари, време и компютърни запаси ”, споделя Лешем Чошен, откривател в лабораторията за изкуствен интелект MIT-IBM Watson.
Нови TP-Link Omada решения за надеждни и бързи външни мрежови съоръжения
Осигуряват съгласуваност от бизнес клас на мъчно налични места »»»
предишна обява: Китай стопира доставките на редкоземни метали и магнити следваща обява:
графа: Актуално, Анализи, Изкуствен разсъдък, Новаторски, Новини | етикети: AI модели, SLM, изкуствен интелект, дребни езикови модели
Коментар

ИМЕ *

Източник: technews.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР