Спорът с Microsoft за това чий чатбот е по-добър не

На годишната конференция I/O на Google ще бъде представен новият Универсален езиков модел

Спорът с Microsoft за това чий чатбот е по-добър не е единствената бизнес активност на Гугъл. Има и други приложения на машинното образование и езиковите модели. На конференцията I/O 2023 компанията има намерение да покаже над 20 продукта, основани на изкуствен интелект. Гугъл създава и езиков модел, който поддържа хиляда езика. Наскоро компанията заяви за напредъка по този повсеместен езиков модел.

През месец ноември предходната година Гугъл разгласи проектите си за основаване на езиков модел, който да поддържа 1000-та най-разпространени езика в света и който назова Universal Speech Model (USM). Разработчиците го разказват като „ семейство от усъвършенствани езикови модели “ с два милиарда параметъра, подготвени върху 12 милиона часа тирада и 28 милиарда фрази на над 300 езика. Някои от езиците от тези хиляда се приказват от по-малко от 20 милиона души, означават основателите на USM.

Този модел към този момент се употребява от YouTube за автоматизираното правене на надписи и различаване на тирада. Той разпознава и превежда от редица езици, в това число освен от британски и китайски, само че и от амхарски, себуански, азербайджански и още доста други. USM към този момент съвършено поддържа над 100 езика и ще бъде в основата на една още по-обширна система.

Изследователите демонстрираха успеваемостта на авансово подготвена стратегия, като използваха за образец основаването на надписи в YouTube. Наборът от данни обгръща 73 езика и приблизително под 3000 часа записи на всеки език. Въпреки тези ограничавания моделът показва междинен % на неточност от по-малко от 30%. Това е триумф, какъвто екипът на Гугъл до момента не е реализирал.