Meta представи езиков модел с изкуствен интелект, който е наистина

Новият AI модел на Meta идва, „знаещ“ над 4000 говорими езика

Meta показа езиков модел с изкуствен интелект, който е в действителност глътка пресен въздух на това поле, защото не е клонинг на ChatGPT, каквито са огромна част от придобилите през последните шест месеца популярност платформи.

Проектът на компанията Massively Multilingual Speech (MMS), показва Engadget, може да разпознава над 4000 говорими езика и да трансформира текст в тирада (text-to-speech) на над 1100.

Подобно на множеството от другите си обществено оповестени планове за изкуствен интелект, Meta дава отворен запас за MMS, „ с цел да помогне за запазването на езиковото многообразие и да насърчи откривателите да надграждат върху неговата основа “.

" Днес споделяме обществено нашите модели и код, с цел да могат и други представители на изследователската общественост да надграждат нашата работа ", написа компанията. " Чрез тази работа се надяваме да дадем дребен принос за опазване на невероятното езиково многообразие в света. "

Моделите за различаване на тирада и преобразяване на текст в тирада нормално изискват образование върху хиляди часове аудиозаписи с съпътстващи ги етикети за транскрипция, които са от решаващо значение за машинното образование, защото разрешават на логаритмите да категоризират вярно и да " схващат " данните. Но за езиците, които не се употребяват необятно в индустриализираните страни (много от тях са застрашени от изгубване през идващите десетилетия), показват от Meta, " тези данни просто не съществуват “.

Затова и компанията употребява нетрадиционен метод за събиране на аудио данни – посредством записи на преведени религиозни текстове. " Обърнахме се към религиозни текстове като Библията, които са преведени на доста разнообразни езици и чиито преводи са необятно проучвани за проучване на езиковия превод въз основата на текст ", споделят от компанията. " При тези преводи има обществено налични аудиозаписи на хора, които четат въпросните текстове на разнообразни езици. "

Включвайки немаркираните записи на Библията и други сходни набори от текст, откривателите на Meta съумяват да усилят наличните езици на модела до зашеметяващите над 4000.

И въпреки този метод на пръв взор да звучи като рецепта за основаване на модел на изкуствен интелект, мощно привързан към религиозния светоглед, учените на Meta настояват, че в тази ситуация това не е по този начин, показва още Engadget.

" Макар че наличието на аудиозаписите е религиозно, нашият разбор демонстрира, че това не подготвя модела да възприема по-религиозен изказ ", написа в блога на компанията. Освен това, макар че множеството от религиозните записи са прочетени от мъже, това не е довело до някакво полово користолюбие.

След като прави данните използваеми, екипът на компанията употребява wav2vec 2.0, модел за " самоконтролирано образование за показване на речта ", който може да се образова върху немаркирани данни. Комбинирането на неконвенционални източници на данни и модел за разбор на речта води до впечатляващи резултати.

" Резултатите ни демонстрират, че нашите модели се показват добре в съпоставяне със съществуващите си съперници, а покриват 10 пъти повече езици “, подчертават от Meta и вършат съпоставяне на MMS с модела Whisper на OpenAI, който също надмина упованията:

" Установихме, че моделите, подготвени върху данните на Massively Multilingual Speech, реализират на половина по-нисък % на неточности в думите, а покриват 11 пъти повече езици. "

Разбира се, Meta не не помнят да предупредят, че новата платформа не е съвършена. " Съществува прочут риск моделът за превръщане на тирада в текст да транскрибира неправилно определени думи или изречения ", написа компанията. " В взаимозависимост от изходния материал това може да докара до афектиран и/или неакуратен текст. Продължаваме да имаме вяра, че съдействието в общността на изкуствения разсъдък е от решаващо значение за виновното развиване на технологиите. "

Сега, откакто пусна MMS с отворен код, Meta се надява, че може да обърне наклонността технологията на огромните езикови модели да бъде съсредоточена в към 100 главно употребявани езика, показва в умозаключение Engadget и цитира екипа на платформата:

" Предвиждаме свят, в който технологиите имат противоположен резултат, като предизвикват хората да поддържат своите езици живи, защото имат достъп до информация и употребяват технологии, говорейки на тях. "

New work! The Massively Multilingual Speech (MMS) project scales speech technology to 1,100-4,000 languages using self-supervised learning with wav2vec 2.0.
Paper: https://t.co/C4Uhk4Q4m5
Blog: https://t.co/XXBQFcj086
Code/models: https://t.co/6mOhKPXy1Xpic.twitter.com/cBAD1Z8kB8
— Michael Auli (@MichaelAuli) May 22, 2023

Meta представи езиков модел с изкуствен интелект, който е наистина

Новият AI модел на Meta идва, „знаещ“ над 4000 говорими езика

новият модел

модел meta

meta идва

идва знаещ

знаещ над

над 4000

4000 говорими

говорими езика

новият

модел

meta

идва

знаещ

4000

говорими

езика

Най големият международен конкурс за вино в света Decanter World

Бивш здравен служител е опитал да се сдобие и продаде

Водещият датски оператор на зарядни станции за електромобили Clever е

Европейският парламент прие годишните доклади оценяващи напредъка към членство в

Науката показва че не е нужна дълга ваканция за да

Една от дългогодишните мантри в медийната индустрия гласи че новините

В последните дни представители на администрацията на Доналд Тръмп изразяват

Европейските автомобилни акции поевтиняха в сряда след като BMW рязко

Международната агенция по енергетика МАЕ прогнозира че през следващата година

Повечето писма адресирани до Мария Антоанета и получени в двореца

Меморандум за разбирателство между САЩ и Иран: Фокус върху ядрената програма и икономическите санкции

Поведението на Кристиано Роналдо след мач предизвика коментари

Узбекистан направи исторически дебют на Мондиал 2026 с равенство срещу Колумбия

Гана победи Панама с късен гол на Световното първенство

13 дни преди по високите цени на електроенергията и парното

България навлиза в период на постепенно и трайно затопляне през

Президентът на САЩ подписа меморандум за разбирателство с Иран в

Вижте какво може да гледате 05 00 Узбекистан – Колумбия

Открийте идеалния график за вашата козметика – от честотата на

Мечтаете за гладка и сияйна кожа Преди да прибегнете до