Големите езикови модели, които стоят зад ChatGPT, Gemini, както и

...
Големите езикови модели, които стоят зад ChatGPT, Gemini, както и
Коментари Харесай

Малкият брат на ChatGPT: Новата вълна в изкуствения интелект

Големите езикови модели, които стоят зад ChatGPT, Gemini, както и други AI принадлежности, в действителност са толкоз положителни, тъй като са… огромни. Много огромни.

Тук приказваме за стотици милиарди параметри – дребни настройки, които се образоват, с цел да откриват смисъла в големи масиви от текст. Колкото повече са параметрите, толкоз по-силен, прецизен и „ интелигентен “ е моделът, написа WIRED.

Това познание обаче си има цена.

Само образованието на модела Gemini 1.0 Ultra на Гугъл коства колосалните 191 милиона $.

Освен това, всякога, когато задаваме въпрос на модел като ChatGPT, той изразходва към 10 пъти повече сила от нормално търсене в Гугъл, сочи изследване на Electric Power Research Institute.

Това е и повода, заради която водещи компании като IBM, Гугъл, Microsoft и OpenAI стартират да мислят в по-тесен мащаб.

Така се появяват SLMs – дребни езикови модели, които идват с едвам няколко милиарда параметри. Те не се съревновават с огромните си братя за купата „ всеобхватен талант “, само че пък чудесно се оправят с някои характерни задания – като обобщаване на диалози, помощ в здравни чатботове или събиране на данни посредством смарт устройства.

„ За доста ежедневни задания един 8-милиарден модел е изцяло задоволителен “, споделя Зико Колтър, компютърен експерт от Carnegie Mellon University. А и най-хубавото е, че тези модели могат да вървят на преносим компютър или даже на по-малко устройство като телефон или часовник, без да се постанова да се включват към сървъри с мащабите на дребна страна.

Как обаче се упражняват тези „ мини чудовища “?

С няколко трика, естествено. Големите модели нормално се учат от необработени и постоянно безредни данни от интернет, само че един път подготвени, те могат да основат изчистен, първокачествен набор от данни, който по-късно да се употребява за образование на дребния модел.

Тази техника носи името knowledge distillation, като посредством нея огромният модел се трансформира в преподавател, а дребният – в възпитаник.

Друг метод, който разработчиците употребяват, е pruning – нещо като цифрово подкастряне на огромен модел, при което се отстраняват непотребните или неефективни връзки. Вдъхновението тук идва от човешкия мозък, който с възрастта също „ внезапно “ усъвършенства връзките си.

Още през 1989 година легендата Ян Льокун предлага, че до 90% от параметрите могат да се изрежат без загуба на успеваемост – и назовава този способ с доста уместно наименование – optimal brain damage.

За откривателите това е съвършената опция – с по-малки модели те могат да опитват, без да харчат милиони. А и с по-малко параметри постоянно е много по-лесно действително да се наблюдава по какъв начин и за какво един модел стига до избран отговор.

Големите модели не престават да са по-добри в полета като генеративни чатботове, основаване на изображения и разкриване на медикаменти. Но за доста консуматори дребният, таргетиран модел ще бъде изцяло задоволителен, тъй като е по-бърз, по-евтин и по-екологичен.

„ Тези ефикасни модели пестят пари, време и запаси “, обобщава Лешем Чошен от MIT-IBM Watson AI Lab. И в един свят, в който изкуственият разсъдък става все по-достъпен, дребните модели скоро може би ще бъдат огромният шлагер.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР