Meta представи своя безплатен софтуер за клониране на глас

Meta представи нов изкуствен интелект за клониране на гласове и генериране на звуци

Meta показа своя безвъзмезден програмен продукт за клониране на глас – Audiobox. Продуктът е доста добър в имитирането на гласовете на хората и на разнообразни звуци, като да вземем за пример лай на кучета или пеене на птици. Той се базира на аудиозаписи и текстови подсказки. Но има измама: Audiobox е неразрешен за комерсиална приложимост, както и в някои райони като Тексас и Илинойс.

За да употребявате програмата, би трябвало единствено да качите истинския аудиозапис и да въведете текстови подсказки. Можете да получите натурални резултати за разнообразни обстановки – озвучаване на видеоклипове, запис на поздрави, научни отчети, песни и други Хората, които имат проблеми с говора, могат да я употребяват, с цел да показват мислите си на глас и даже да предават страсти – софтуерът може да изобразява неспокойствие, екстаз, яд, нерешителност. Софтуерът не употребява гласове на известни персони, с цел да се избегнат вероятните правни проблеми.

Продуктът се базира нацяло семейство генеративни изкуствени интелекти, които могат да генерират аудио. Някои от моделите копират и възпроизвеждат гласовете, а други дават отговор за другите шумове и резултати. Всички те се основават на един-единствен самообучаващ се модел – Audiobox SSL.

Той е подготвен върху 160 000 часа аудиозаписи от хора в 150 страни, които приказват 200 езика, както и върху 20 000 часа музикални записи и 6 000 часа разнообразни звукови резултати – от капене до скърцане. Речевата част е включвала аудиокниги, подкастове, записи на лекции и обществени речи, както и диалози в естествена среда. Изследователите не прецизират от кое място са получили данните за образование на модела и дали са получили единодушието на тези, чиито гласове са употребявали. Медиите схванаха това едвам в този момент, само че нормално сходна огромна компания се грижи да съблюдава закона.

За да показват опциите на Audiobox, разработчиците показаха редица интерактивни демонстрации. Една от тях разрешава да се записва аудиото на консуматор, който приказва текст от към едно изречение, и да се озвучават дълги текстове с неговия глас. Тези, които към този момент са тествали нововъведението, оповестяват, че гласовете като цяло са сходни, само че от време на време се разграничават от оригинала.

Софтуерът също по този начин ви разрешава да генерирате изцяло нови гласове въз основа на текстови описания, като да вземем за пример „ невисок женски глас “, „ висок глас на мъж от Съединени американски щати “ и така нататък Можете също по този начин да добавяте нови резултати към действителен запис, да променяте темпото на речта и стила на песните, както и още доста други най-разнообразни резултати и благоприятни условия.

Интересно е, че изходният код на Audiobox е затворен, макар че разработчикът по-рано обещаваше да издава транспарантни артикули с отворен код.