На годишното събитие Meta Connect в Калифорния, Meta Platforms представи

...
На годишното събитие Meta Connect в Калифорния, Meta Platforms представи
Коментари Харесай

Meta представи ИИ-модела Llama 2 Long, който работи по-добре с дълги запитвания

На годишното събитие Meta Connect в Калифорния, Meta Platforms показа няколко нови AI-функции за своите известни приложения Фейсбук, Instagram и WhatsApp, само че най-впечатляващото изобретение от софтуерния колос може да е останало неусетно от болшинството. Става дума за модела AI Llama 2 Long. Какво съставлява той и какъв брой дълги могат да са запитванията към него? Колко ефикасен е и по какъв начин се образова?

Екип от откриватели в Meta някак тихомълком разгласява публикация, в която показаха нов модел с изкуствен интелект — Llama 2 Long, кадърен да генерира поредни и подобаващи отговори на дълги потребителски запитвания. Най-много, споделят те, че той превъзхожда някои от най-хубавите съперници в промишлеността.

Какво съставлява Llama 2 Long?

Llama 2 Long е уголемение на Llama 2, който е AI модел с отворен код, пуснат от Meta през лятото. Той може да се учи от разнообразни източници на данни и да извършва доста задания като шифроване, математика, схващане на език и други Въпреки това, Llama 2 Long беше подготвен на повече данни, съдържащи по-дълги текстове, и този логаритъм беше модифициран, с цел да обработва по-дълги поредици от информация. Това му разрешава да надмине GPT-3.5 Turbo и Claude 2 на OpenAI, които имат ограничавания по отношение на количеството подтекст, който могат да употребяват при генериране на отговори.

Изследователите на Meta са употребявали разнообразни версии на Llama 2 — от 7 милиарда до 70 милиарда параметъра, т.е. стойности, които AI моделът може да промени, като се учи от данните. Те са добавили и още 400 милиарда токена (текстови единици) данни, които съдържат по-дълги текстове от истинския набор от данни на модела. Леко са трансформирали архитектурата на AI-модела, употребявайки техниката Rotary Positional Embedding (RoPE), тъй че моделът да генерира точни и потребни отговори, употребявайки по-малко информация и памет спрямо останалите способи.

Екипът употребява образование с човешка противоположна връзка (reinforcement learning from human feedback) (RLHF) — способ, при който AI моделът се възнаграждава за верните отговори и се поправя от човешки оценители, а синтетичните данни се генерират от самия чат Llama 2, с цел да усъвършенства представянето си при другите задания.

Документът твърди, че моделът може да генерира висококачествени отговори на потребителски поръчки с дължина до 200 000 знака, което е еквивалент на към 40 страници текст. Изследователите споделят, че Llama 2 Long е стъпка към основаването на по-общи и гъвкави AI-модели, които могат да отговорят на комплицираните и разнородни потребности на потребителите. Те също по този начин признават евентуалните етични и обществени последствия от такива модели и приканват за по-нататъшни проучвания и разговор по отношение на това, по какъв начин да се употребяват отговорно и ползотворно.

Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР