Изследователи от ETH Zurich са разработили нова техника, която може

...
Изследователи от ETH Zurich са разработили нова техника, която може
Коментари Харесай

Нов метод може 300 пъти да ускори обучението на ИИ езиковите модели

Изследователи от ETH Zurich са създали нова техника, която може доста да усили скоростта на невронните мрежи. Те са посочили, че модифицирането на процеса на извеждане може фрапантно да понижи изчислителните условия. Това е реализирано посредством подмяна на обичайните пластове за директно разпространяване с така наречен бързи пластове за директно разпространяване, които употребяват условно умножение на матрици. Експериментите с модела BERT демонстрираха понижаване на изчисленията с над 99%. Този метод може да бъде прибавен и към други езикови модели, като да вземем за пример GPT-3, и да обезпечи доста по-бърза и по-ефективна обработка на поръчките. Бързото разбиране на метода ще изравни изискванията за конкуренция сред фирмите, които имат съвсем безграничен достъп до изчислителни запаси, и тези, които са лимитирани в това отношение.

Трансформърите – невронните мрежи, употребявани в моделите на LLM, се състоят от разнообразни пластове, в това число пластове за внимание и пластове за директно разпространяване. Последните съставляват забележителна част от параметрите на модела и са изчислително интензивни заради нуждата да се пресметна творбата на всички неврони и входните измерения. Изследователите показаха научна работа, която демонстрира, че не е належащо всички неврони в пластовете за директно разпространяване да бъдат дейни по време на процеса на извеждане за всяка входна стойност. Вместо това те оферират да се употребяват „ бързи пластове за директно разпространяване “ (FFF) като сурогат на обичайните пластове за директно разпространяване.

В FFF се употребява математическа интервенция, известна като условно матрично умножение (CMM), която замества плътното матрично умножение (DMM), употребявано в обичайните мрежи за предаване на данни. При DMM всички входни параметри се умножават по всички неврони в мрежата, а този развой е изчислително доста натоварен и неефикасен. CMM на собствен ред обработва изходните данни по този начин, че нито една входна информация не изисква повече от няколко неврона, с цел да бъде обработена от мрежата.

Като дефинира верните неврони за всяко пресмятане, СММ може да понижи изчислителното натоварване, което води до по-бързи и по-ефективни езикови модели.

За да тестват техниката, откривателите създадоха FastBERT – трансформация на модела BERT Transformer на Гугъл. FastBERT замества междинните пластове за директно разпространяване с бързи пластове за директно разпространяване. Бързодействащите пластове провеждат своите неврони в уравновесено двоично дърво, като извършват условно единствено един клон въз основа на входните данни. За да оценят продуктивността на FastBERT, откривателите са настроили разнообразни разновидности на няколко задания от теста General Language Companing Evaluation (GLUE). GLUE е цялостна сбирка от набори от данни, предопределени за образование, оценка и разбор на системите с схващане на естествения език.

Резултатите са впечатляващи и зашеметяващи: FastBERT сподели успеваемост, сравнима с базовите модели BERT със същия размер и методология на образование. Вариантите на FastBERT, подготвени единствено за един ден на един графичен процесор A6000, резервират най-малко 96% от продуктивността на истинския модел BERT.

Най-добрият FastBERT модел реализира продуктивността на истинския модел, като употребява единствено 0,3% от своите неврони за директно разпространяване.

Изследователите допускат, че потреблението на мрежи с бързо директно разпространяване в LLM има огромен капацитет за възстановяване скоростта на изкуствения разсъдък. Така да вземем за пример в GPT-3 мрежите за директно разпространяване на всяко равнище на трансформъра са формирани от 49 152 неврона. Ако бъде подготвена сходна мрежа, то тя може да бъде сменена с мрежа с бързо директно разпространяване с 65 536 неврона, само че употребяваща единствено 16 неврона за извеждане. Това съставлява към 0,03% от невроните на GPT-3.

Така нареченото умножение на плътни матрици се смята за най-оптимизираната математическа интервенция в историята на изчислителната техника. Въпреки това достъпността му е лимитирана от комплицирани програмни интерфейси. За разлика от умножението на плътни матрици, условното умножение на матрици, употребявано в мрежите за бърза директна връзка, няма вградена ефикасна математическа реализация. Съществуващите среди за надълбоко образование не дават интерфейси за тази интервенция отвън моделирането на високо равнище.

„ Положени са големи старания за планиране на памети, чипове, набори от указания и софтуерни процедури, които да я извършват допустимо най-бързо. Много от тези достижения – било то заради тяхната трудност или поради конкурентни преимущества – се пазят в загадка и се разкриват на крайния консуматор единствено посредством мощни, само че ограничаващи програмни интерфейси “ – декларират учените.

На процедура е осъществена забележителна хардуерна и софтуерна оптимизация на умножението на плътни матрици – математическата интервенция, най-често употребена в обичайните невронни мрежи.

Изследователите са създали своя лична реализация на интервенциите за условно умножение въз основата на,ашинните указания на CPU и GPU. Това е довело до необикновено 78-кратно нарастване на скоростта на извеждане.

Учените смятат, че с по-добър хардуер и реализация на логаритъма на ниско равнище има капацитет за над 300-кратно възстановяване на изходящата скорост. Това би могло да реши един от главните проблеми с езиковите модели – броят на лексемите, които те генерират в секунда.

„ С теоретичното ускоряване от 341 пъти в мащаба на моделите въз основата на BERT се надяваме, че нашата работа ще въодушеви напъните за използване на примитиви за условното осъществяване на невроните като част от интерфейсите за програмиране на другите устройства “, пишат откривателите.

Това проучване е част от по-широкообхватни старания за справяне с тесните места в работата на паметта и изчисленията на огромните езикови модели, което проправя пътя към по-ефективни и мощни системи за изкуствен интелект.

Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР