Google представи нова архитектура за работа с дълги последователности Titans

...
Google представи нова архитектура за работа с дълги последователности Titans
Коментари Харесай

Google представи Titans и MIRAS – следващото поколение AI за свръхдълги контексти

Гугъл показа нова архитектура за работа с дълги последователности Titans и теоретичната основа MIRAS, която съчетава скоростта на рекурентните мрежи с точността на трансформърите. Компанията съобщи, че този метод оказва помощ на моделите да запомнят по-добре значимите елементи в доста дълги контексти – от огромни документи до геномни данни.

Класическите трансформъри революционизират механизма за внимание: моделът може да „ огледа обратно “ и да подчертае значими елементи от текста. Но това си има цена.Изчислителната трудност на вниманието нараства квадратично с дължината на последователността, тъй че мащабирането на трансформъри за контексти с милиони лексеми става прекомерно ресурсоемко.

Изследователската общественост към този момент се опита да заобиколи това ограничаване посредством по-бързи линейни архитектури – да вземем за пример ефикасните RNN и моделите от клас State Space като Mamba-2. Те компресират предходния подтекст във вектор с закрепен размер, тъй че изчислителните разноски нарастват линейно. Но точно заради сериозното ограничаване на размера на паметта тези модели не се оправят добре с в действителност богатите и дълги последователности, при които е значимо да не се губят фините връзки сред обстоятелствата.

В два нови документа Гугъл предлага цялост от Titans и MIRAS. Titans е съответна архитектура, а MIRAS е обща теоретична рамка, която разказва сходни системи като тип асоциативна памет. Заедно те развиват концепцията за „ инференциална памет “: даден модел може да се доучава директно по време на осъществяването му, освен посредством добиване на информация от параметрите, само че и посредством актуализиране на дълготрайната памет при съществуването на данни.

Основната концепция зад Titans е, че моделът има няколко равнища наизуст, сходно на краткосрочната и дълготрайната памет при хората. Краткосрочната част към момента се обезпечава от механизма за внимание, който работи добре върху локализирани сектори от текста. Но дълготрайната памет е осъществена не като елементарен вектор или матрица с закрепен размер, а като пълноценна дълбока невронна мрежа – многослоен перцептрон. Благодарение на това моделът може да кодира предишния подтекст доста по-богато и да „ схваща “ историята, а не просто да съхранява набор от бележки.

Друга основна концепция е механизмът „ изненада “. В живота елементарно забравяме рутинните дейности, само че чудесно запомняме събитията, които излизат от рамките на даден модел. Titans употребява сходен принцип: моделът съпоставя настоящото положение на паметта с новия входящ сигнал и пресмята какъв брой „ непредвиден “ е той за нея. Ако несъответствието е малко, информацията може да не бъде записана в дълготрайната памет. Ако входният сигнал внезапно се разграничава от упованията, това е сигурен знак, че разполагаме с значим или аномален факт, който си коства да бъде непокътнат.

За да се подсигурява, че системата не реагира единствено на еднократни скокове, в Titans са добавени два детайла. На първо място, „ инерцията “ – моделът взема поради освен актуалната изненада, само че и скорошната история, с цел да улови вериги от свързани събития. Второ, механизъм за забравяне посредством адаптивно понижаване на тежестта. Това е самобитен „ клапан “, който защищава паметта от препълване при работа с извънредно дълги последователности и последователно изхвърля остарялата информация.

MIRAS разказва целия този клас модели на по-абстрактно равнище. Тази доктрина преглежда всяка архитектура на последователности като асоциативна памет, която се научава да съпоставя ключове и стойности, като балансира двете задания – да научава новото и да не унищожава остарялото. MIRAS акцентира четири основни съставния елемент: структурата на самата памет, по какъв начин моделът избира на какво да обърне внимание, механизма за опазване и забравяне и оптимизационния логаритъм, посредством който паметта се обновява.

Гугъл слага обособен акцент върху обстоятелството, че MIRAS излиза отвън рамките на нормалните евклидови метрики като междинна квадратична неточност и скаларно произведение. В множеството модерни модели точно MSE и точковото произведение са в основата както на „ пристрастията “ на модела, по този начин и на механизмите за регуларизация на паметта. Това е комфортно, само че прави системата сензитивна към външни отклонения и лимитира класа на допустимите решения. MIRAS предлага по-богато пространство от цели и регулатори, като се опира на прозрения от оптимизацията и статистиката, и по този метод отваря пътя към архитектури с ексцентрични, неевклидови функционалности на загубите.

В тази рамка откривателите на Гугъл са създали три характерни модела без очевидно внимание – YAAD, MONETA и MEMORA. YAAD употребява по-меко наказване за грешките посредством загубите на Хубер и по-добре понася зашумените данни, при които са вероятни печатни неточности или единични артефакти. MONETA опитва с по-сложни правила и ревизира дали строгите математически „ правила “ за запомняне и забравяне могат да подобрят стабилността на дълготрайната памет. MEMORA се пробва да стабилизира оптимално паметта, като я кара да се държи като вероятностно систематизиране, тъй че всяко възобновяване на положението да е следено и тъкмо.

В опитите моделите Titans и MIRAS бяха съпоставени с най-съвременните архитектури като Transformer++, Mamba-2 и Gated DeltaNet. Тестването е осъществено върху общоприети набори от данни за езиково моделиране, като C4 и WikiText, както и върху задания с нулева стъпка на здравия разсъдък, в това число HellaSwag и PIQA. Гугъл твърди, че новите модели демонстрират по-ниска перплексия и по-добра акуратност от базовите архитектури със съпоставим размер, като в същото време резервират линейната мащабируемост и опциите за редом образование.

Предимството на Titans е изключително видимо при дилемите с извънредно дълги контексти. При бенчмарка BABILong, където е належащо да се създадат изводи въз основа на обстоятелства, разпръснати в доста дълги документи, архитектурата Titans превъзхожда всички базови модели, в това число огромни системи като GPT-4, макар че съдържа доста по-малко параметри. Авторите също по този начин означават, че Titans съумява да мащабира контекстния прозорец до стойности над 2 милиона токена и въпреки всичко да резервира качеството.

Отделни проучвания демонстрират, че дълбочината на модула на паметта играе решаваща роля. За еднакъв „ размер “ на паметта, само че с друга дълбочина, по-дълбоките разновидности дават поредно по-ниска перплексия и се мащабират по-добре с увеличение на дължината на последователността. Това е спомагателен мотив, че богатата, дълбока дълготрайна памет в действителност оказва помощ на моделите да се ориентират в доста дългите последователности.

В резултат на това Гугъл нарежда Titans и MIRAS като стъпка към ново потомство модели, които могат да се учат в придвижване, да съхраняват значими елементи върху големи пространства от подтекст и въпреки всичко да бъдат задоволително ефикасни за практическа приложимост. Теоретичната рамка на MIRAS свързва онлайн оптимизацията, асоциативната памет и архитектурния дизайн, до момента в който самата архитектура Titans показва по какъв начин скоростта на RNN може да се съчетае с изразителната мощ на Transformers в ерата на изкуствения разсъдък с дълъг подтекст.

(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `
Източник: kaldata.com


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР