Бизнесът търси ценово изгодни генеративни AI решения за конкретни задачиКомпаниите

Малките езикови модели може да се окажат голяма сила

Бизнесът търси ценово преференциални генеративни AI решения за съответни задания

Компаниите избират дребни езикови модели (SLM) за зареждане на съответни бизнес-задачи (снимка: CC0 Public Domain)

Разходите за потребление на огромни езикови модели (LLM) от водещите облачни снабдители подтикват интереса към… дребните езикови модели (SLM) за потребление на генеративен AI в бизнеса. Оказва се, че предприятията не желаят да заплащат за LLM, с цел да извършват елементарни бизнес-задачи с генеративен изкуствен интелект. Те търсят по-евтини дребни езикови модели, сочи разбор на пазара.

Големите езикови модели, захранващи генеративните AI услуги на AWS, Гугъл Cloud и Microsoft Azure, са способни на доста процеси, вариращи от писане на програмен код и прогнозиране на 3D структурата на протеините до отговаряне на въпроси по съвсем всяка допустима тематика. Мащабът на опциите е въодушевяващ. Но впрягането в работа на такива солидни AI модели със стотици милиарди параметри е скъпо. Предприятията се питат дали не е по-рентабилно образованието на дребен езиков модел за зареждане да вземем за пример на чатбот за обслужване на клиенти.

„ Нашият обичан потребителски отговор е, че интелигентността на LLM може да е страхотна, само че дадената частна организация няма потребност нейната система за продажби да може да рецитира френска лирика “, сподели Девврет Риши, основен изпълнителен шеф на новостартиращата компания Predibase.

През последните няколко месеца и Gartner вижда увеличение на броя на корпоративните клиенти, които правят оценка SLM, с цел да понижат разноските си. „ Все по-често виждаме клиенти да идват при нас и да ни споделят, че употребяват тези извънредно мощни, огромни модели и цената на услугата е прекомерно висока, а те се пробват да създадат нещо доста по-просто “, споделя анализаторът на Gartner Арун Чандрасекаран.

Като опция предприятията изследват езикови модели с 500 милиона до 20 милиарда параметъра, споделя Чандрасекаран. „ Това е по-привлекателно. Тези модели стартират да набират известност, основно на фона на ценовото им показване. “
SLM за бизнеса
Малките езикови модели не могат да се мерят с обсега на дилемите на огромните езикови модели. Въпреки това SLM, подготвени върху данни за характерни задания като генериране на наличие от избрана база данни, демонстрират капацитет като доста по-евтина и в същото време стойностна опция.

„ Малките модели имат стеснен потенциал на модела. Но в случай че концентрираме потенциала им върху съответна целева задача, моделът може да реализира прилична продуктивност “, съгласно отчет на откриватели от Университета в Единбург в Обединеното кралство и Института за AI „ Алън “ в Сиатъл.

През януари консултантската група Sourced Group ще помогне на няколко компании – телекоми и организации от света на финансовите услуги – да се възползват от GenAI, употребявайки SLM с отворен код, сподели водещият съветник по AI Фаршад Годсиан. Първоначалните планове включват потребление на натурален език за добиване на информация от персонални вътрешни документи.
Годсиан опитва с FLAN-T5 – модел на натурален език с отворен код, създаден от Гугъл и наличен на Hugging Face, с цел да научи за SLM. Екипът тества версията на FLAN-T5 с 248 милиона параметъра.

„ Когато добавите генериране на ресурсен документ, това ви дава доста по-добри резултати, в сравнение с потреблението на LLM, и е доста по-лесно за осъществяване “, сподели той. „ Можете даже да го стартирате на индивидуален компютър. Това е огромна изгода “.

Потенциалът на SLM притегли и огромни корпоративни снабдители като Microsoft. Миналия месец откривателите на компанията показаха Phi-2: SLM с 2,7 милиарда параметъра, който надмина версията с 13 милиарда параметри на Llama 2 на Meta, съгласно Microsoft. Компанията пусна Phi единствено за проучване.
SLM: мощни и слаби страни
Доставчиците на SLM с отворен код популяризират достъпа до моделите като решаваща корпоративна функционалност. Например, потребителите могат да получат достъп до параметрите, разкривайки по какъв начин моделът изготвя своите отговори. Недостъпните параметри, употребявани от огромните езикови модели, безпокоят предприятия, които се опасяват от евентуални изкривявяния.

Друг сериозен фактор е ръководството на данните. Много организации се тормозят от приключване на фирмени данни при фината конфигурация на заоблачен LLM. Те не биха желали тяхна сензитивна информация да се озове в морето от данни, „ предъвквани “ от огромните езикови модели.
още по темата
Технологията с отворен код също има своите недостатъци. През юни компанията за сигурност на веригата за доставки Rezilion заяви, че 50 от най-популярните GenAI планове с отворен код в GitHub имат междинен резултат за сигурност от 4,6 от 10. Слабостите, открити в технологията, могат да доведат до опасности, в това число компрометиране на сензитивна информация или интелектуална благосъстоятелност, написа Rezilion в блога си.

Обещаващите SLM, посочени от Чандрасекаран, включват Llama 2 на Meta, Falcon на Института за софтуерни нововъведения и Mistral AI Mistral 7B и Mixtral 8x7B.

„ Започваме да виждаме от ден на ден и повече от тези модели с отворен код да бъдат сертифицирани за комерсиална приложимост, което е много огромно достижение за доста предприятия “, сподели той. За доставчиците на модели с отворен код имат благоприятни условия през идната година, когато предприятията преминат от стадия на образование към действителното внедряване на GenAI.

„ Те към момента не са взели дефинитивно решение, само че са подготвени да скочат незабавно щом настъпи новата година “, споделя Годсиан. „ Имат нови бюджети и желаят да стартират да ползват или най-малко да проведат някои опити за доказване на концепцията “.