Шон Васкез и Майк Луис от Facebook представиха синтезатор на

...
Шон Васкез и Майк Луис от Facebook представиха синтезатор на
Коментари Харесай

Невронната мрежа на Facebook започна да говори с гласа на Бил Гейтс

Шон Васкез и Майк Луис от Фейсбук показаха синтезатор на тирада с нов и доста ефикасен принцип на работа. В акаунта на разработчиците в GitHub е качена сбирка от тракове, в които се чува по какъв начин невронната мрежа напълно безапелационно имитира речта на създателя на Microsoft. На записите се чуват няколко изречения с случаен текст, в които освен напълно тъкмо се копира тембъра на гласа на Бил Гейтс, само че и напълно в детайли и фино се имитират естествените ударения, а това до момента бе недостижимо за логаритмите с детайли на изкуствен интелект.



Създаденият от Фейсбук модел за синтез на човешка тирада се назовава MelNet и това не е първата сбирка фалшификати на човешка тирада. Преди виртуалния двойник на Бил Гейтс бяха показани гласовете на Джордж Такеи, Стивън Хокинг и други звезди. Въпреки че невронната мрежа е тренирана с материали от аудиокниги и речи, до момента не можеше да се избегнат присъщите металически нотки в изкуствения глас.
https://www.kaldata.com/wp-content/uploads/2019/06/sample-0.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-1.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-2.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-3.mp3
Разработчиците изясняват направения пробив с това, че за разлика от WaveNet на Гугъл и другите модерни технологии за генериране на тирада, MelNet е подготвена не посредством графичното показване на амплитудата на звуковите талази, а посредством спектрограми. Методът на амплитудите прекомерно доста раздробява звуковия поток, тъй като фиксира сигнала за интервал от милисекунди, което затруднява изкуствения разсъдък да извърши нужните корелации. В резултат от това, някои характерности на речта като височина и тембър се улавят, само че се възпроизвеждат в ущърб на други параметри на гласа – интонация и фонемен състав. Спектрограмите са доста по-наситени от осведомителна позиция, а данните в тях са по-компактни и комплексният разбор на звуковия поток става без изкривявания .

Въпреки това, съгласно основателите на MelNet, технологията към момента е надалеч от съвършенството. Примерите в GitHub не инцидентно са единствено къси изречения: към този момент невронната мрежа може напълно тъкмо да озвучава интонациите единствено за някои обособени къси изречения. Обработката на комплицирани смислови масиви, като да вземем за пример трагичното четене на незначителен роман или монолог, в който се трансформира емоционалността, към този момент не са вероятни.

Но и в настоящия си тип новата технология може да се употребява в гласовите асистенти, в прът центровете, в по този начин наречените горещи линии и в другите сходни обстановки, в които общуването става по авансово заложен сюжет и елементарно се автоматизира. Интернет изданията означават и големия капацитет за незаконното потребление на MelNet. Това е разбираемо, тъй като напълно точното генериране гласа на избран човек може да се употребява за подправяне на неговата тирада и акцент. Васкез и Луис не споделиха какви са им проектите за потреблението на тази технология и по какъв начин ще бъдат следени рисковете.
Източник: kaldata.com

СПОДЕЛИ СТАТИЯТА



Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР