Системата работи без човешки надзор, което означава, че е в

Изкуствен интелект превръща един певчески глас в друг

Системата работи без човешки контрол, което значи, че е в положение да прави превръщане от данни, които преди този момент не е срещала

AI технология може да освободи хората от рестриктивните мерки на личния им глас (източник: CCO Public Domain)

Изкуственият разсъдък може да генерира анимации на база сюжети, да открива дупки и пукнатини по пътищата и да научи четириноги роботи да се изправят, откакто паднат. Какво друго може? Да трансформира гласовете на артистите да вземем за пример. Да.

В публикация, оповестена в Arxiv.org, учените от Фейсбук AI Research и Тел-Авивския университет разказват система, която непосредствено преобразува гласа на един артист в гласа на различен. Още по-впечатляващо е, че системата работи без човешки контрол, което значи, че е в положение да прави превръщане от некласифицирани, неанотирани данни, които преди този момент не е срещала.

Екипът твърди, че техният модел е съумял да се научи да конвертира певчески гласове на база 5 до 30 минути „ слушане “. Това е допустимо частично с помощта на новаторска скица за самообразование и нещо, което откривателите разказват като „ техника за възстановяване на данните “.

Предложената мрежа не е обусловена от текста или нотите и не изисква паралелни подготвителни данни на другите артисти, нито пък употребява дубликат от аудио или текст или музикални ноти. Учените споделят още, че системата предлага еластичност във връзка с другите характерности на гласа.

Методът се основава на WaveNet – автоенкодер, създаден от Гугъл (вид изкуствен интелект, употребен за проучване на представяния за набори от данни без човешки надзор). Той генерира модели въз основата на аудиовълните от звукозаписите.
още по тематиката
Системата употребява „ противоположен превод “, който включва конвертиране на една проба от данни в целевата извадка (в този случай, гласа на един артист към друг), преди да преведе назад към истинския глас и да настрои идващия опит, в случай че първият не съответствува задоволително добре с оригинала.

Освен това екипът е употребявал „ синтетични “ проби, базирайки се на „ виртуални идентичности “, близки до певеца-източник.

За опитите си учените получили два обществено налични масива от данни – корпусът на Станфордския дигитален списък на мобилните осъществявания (DAMP) и „ Корпус от изпято и изговорено “ на Националния университет на Сингапур (NUS-48E). Всички те съдържат песни, изпълнени от разнообразни артисти.

От първия масив са подбрани петима артисти с 10 случайни песни (девет песни от които упражнявали ИИ системата), а от втория били определени 12 артисти с четири песни от всеки реализатор – техните песни били употребявани за образованието на системата.

Последвал обзор от рецензентите, оценявали по скалата от 1 до 5 сходството на генерираните гласове с целевите гласове за пеене. Отделно от това била приложена и система за автоматизирано тестване на крайния резултат.

Оценката на рецензентите е 4 – съгласно тях, системата се е справила доста добре с конвертирането на гласовете. Това следва да значи положително качество на преобразуването. Автоматизираното тестване е дало по-щедра оценка – 5.

Бъдещата работа на екипа най-вероятно ще е съсредоточена върху превръщане на гласове при съществуването на фонова музика. Подходът би довел, да вземем за пример, до освобождение от рестриктивните мерки на личния глас, пишат създателите на отчета за нововъведението.

Системата може да откри редица приложения, в това число в изкуството. Остава отворен въпросът за опциите преобразуването на човешки гласове от системата да се употребява за злоупотреби, да вземем за пример измами с „ телефонни записи “, фалшификации при гласово различаване и др.

Изкуствен интелект превръща един певчески глас в друг

изкуствен интелект

интелект превръща

превръща един

един певчески

певчески глас

глас друг

изкуствен

интелект

превръща

един

певчески

глас

друг