Големите езикови модели (LLM) – невронните мрежи, обучени за работа

Оказа се, че езиковите модели могат перфектно да компресират данните

Големите езикови модели (LLM) – невронните мрежи, подготвени за работа със обилни количества текст – получиха различен образ. Екипът на DeepMind, подразделението на Гугъл, известно със своите AI системи, които побеждават хората в настолни и видеоигри, заяви, че LLM могат освен да пишат научни публикации, художествена литература и журналистически материали, само че и се оправят чудесно с компресирането на данни. Авторите предлагат „ да се огледа на казуса с прогнозирането през призмата на компресирането„.

Експериментът на експертите от DeepMind сподели, че след минимални модификации огромните езикови модели могат да компресират информацията също толкоз дейно, а в някои случаи даже доста по-добре от необятно употребяваните логаритми за компресиране.

Въпреки че опцията за компресиране на данни от ИИ системи е от дълго време известна на откривателите на машинното образование, множеството от тях не знаят за нейното потребление в практиката, пишат разработчиците от DeepMind. Затова те са се заели да разпространяват тази значима концепция, оповестява Venture Beat.

По създание моделът за машинно образование се научава да трансформира входящите данни – да вземем за пример текст или изображения – в „ прикрито пространство “, което обгръща основните характерности на данните. Това пространство нормално има по-малко измерения от пространството на входните данни, което разрешава на модела да понижи размера на данните, т.е. да работи като устройство за компресиране на данни.

В своето проучване Гугъл DeepMind преконфигурира един от LLM моделите с отворен код по подобен метод, че той да извършва аритметично шифроване – един от логаритмите за обратима компресия. Според тях това е било допустимо, защото езиковият модел е бил подготвен с логаритмична загуба и кръстосана ентропия, която усилва вероятността за намиране на съвпадения с естествените изречения при генерирането на текст.

Учените тествали опциите на LLM за компресиране на данни върху текст, изображения и аудио данни. Както се очакваше, LLM се оправя чудесно с компресирането на текст. Така да вземем за пример моделът Chinchilla със 70 милиарда параметъра компресира данните до 8,3% от първичния размер, като доста превъзхожда gzip и LZMA2 (съответно 32,3% и 23%).

Тези модели обаче се оправят изненадващо добре и с образни и аудио данни и доста превъзхождат логаритмите, профилирани за дадена област, като PNG или FLAC.

Разбира се, заради техния огромен размер и ниска скорост е непрактично да се употребяват LLM за компресия на данни. Авторите обаче обръщат внимание на различен аспект. Счита се, че колкото по-голям е LLM, толкоз по-добър е той. Изследването на DeepMind потвърждава, че това не е наложително: въпреки че по-големите модели в действителност се оправят по-добре с компресирането на огромни количества данни, колкото по-малки са те, толкоз по-лошо е представянето им. По този метод това компресиране може да бъде индикатор за това до каква степен добре даден езиков модел обработва информацията от набора от данни.