Нов AI на Microsoft се нуждае от 3 секунди, за да „открадне“ гласа ни
В четвъртък, откриватели от Microsoft оповестиха, че са основали нов модел на изкуствен интелект за превръщане на текст в тирада, наименуван VALL-E, който може да симулира тъкмо гласа на човек само на база на трисекунден аудиозапис.
След като проучва съответен глас, VALL-E може да синтезира аудиозапис на неговия собственик, който споделя каквото и да било - и то по метод, съгласуван с прочувствения звук на говорещия, оповестява АrsTechnica.
Създателите му допускат, че VALL-E може да се употребява за висококачествени приложения за превръщане на текст в тирада, редактиране на тирада, при което записът може да бъде изменен от текстова транскрипция, добавяйки изявления, които индивидът не е направил в началото, както и за основаване на аудиосъдържание, когато се комбинира с други генеративни AI модели като GPT-3.
Microsoft назовава VALL-E " езиков модел с невронен кодек ". Той е основан на технология, наречена EnCodec, която Meta показа през октомври 2022 година За разлика от други способи за превръщане на текст в тирада, които нормално синтезират речта посредством манипулиране на вълнови форми, VALL-E генерира дискретни кодове на аудиокодеците от текст и гласови подсказки. Той проучва по какъв начин звучи даден човек, EnCodec разделя тази информация на дискретни съставни елементи (наречени " токени " ), след което платформата пресмята по какъв начин би звучал този глас, в случай че произнася изречения отвън трисекундната извадка.
Microsoft образова VALL-E за синтез на тирада посредством аудио библиотека, събрана от Meta, наречена LibriLight. Тя съдържа 60 000 часа британска тирада от повече от 7 000 индивида, извлечени най-вече от аудиокниги и изявления в общественото пространство. За да може VALL-E да генерира добър резултат, гласът в трисекундната извадка към момента би трябвало да подхожда навръх някой от тези в обучителия набор от данни.
В допълнение към запазването на тембъра на гласа и прочувствения звук на говорещия, VALL-E може да имитира и " акустичната среда " на аудиообразеца. Например, в случай че извадката е от телефонен диалог, изкуственият разсъдък ще имитира акустичните и честотните свойства на тази среда.
Не на последно място, VALL-E може да генерира вариации в тона на гласа.
Изброените благоприятни условия ясно демонстрират, че VALL-E евентуално би могъл да се употребява за злонамерена активност, измами и основаване на дийпфейк материали. Затова и Microsoft не дава изходния код на VALL-E за изпробване от други консуматори.
" Тъй като VALL-E би могъл да синтезира тирада, която поддържа идентичността на говорещия, той може да носи евентуални опасности при корист като, да вземем за пример, подправяне на гласова идентификация или корист със самия говорещ. За да се понижат такива опасности, е допустимо да се построи модел, който да разграничава дали даден аудиоклип е синтезиран от VALL-E. При по-нататъшното създаване на моделите ще използван на процедура и правилата на Microsoft за изкуствен интелект “, безапелационни са от софтуерния колос.
След като проучва съответен глас, VALL-E може да синтезира аудиозапис на неговия собственик, който споделя каквото и да било - и то по метод, съгласуван с прочувствения звук на говорещия, оповестява АrsTechnica.
Създателите му допускат, че VALL-E може да се употребява за висококачествени приложения за превръщане на текст в тирада, редактиране на тирада, при което записът може да бъде изменен от текстова транскрипция, добавяйки изявления, които индивидът не е направил в началото, както и за основаване на аудиосъдържание, когато се комбинира с други генеративни AI модели като GPT-3.
Microsoft назовава VALL-E " езиков модел с невронен кодек ". Той е основан на технология, наречена EnCodec, която Meta показа през октомври 2022 година За разлика от други способи за превръщане на текст в тирада, които нормално синтезират речта посредством манипулиране на вълнови форми, VALL-E генерира дискретни кодове на аудиокодеците от текст и гласови подсказки. Той проучва по какъв начин звучи даден човек, EnCodec разделя тази информация на дискретни съставни елементи (наречени " токени " ), след което платформата пресмята по какъв начин би звучал този глас, в случай че произнася изречения отвън трисекундната извадка.
Microsoft образова VALL-E за синтез на тирада посредством аудио библиотека, събрана от Meta, наречена LibriLight. Тя съдържа 60 000 часа британска тирада от повече от 7 000 индивида, извлечени най-вече от аудиокниги и изявления в общественото пространство. За да може VALL-E да генерира добър резултат, гласът в трисекундната извадка към момента би трябвало да подхожда навръх някой от тези в обучителия набор от данни.
В допълнение към запазването на тембъра на гласа и прочувствения звук на говорещия, VALL-E може да имитира и " акустичната среда " на аудиообразеца. Например, в случай че извадката е от телефонен диалог, изкуственият разсъдък ще имитира акустичните и честотните свойства на тази среда.
Не на последно място, VALL-E може да генерира вариации в тона на гласа.
Изброените благоприятни условия ясно демонстрират, че VALL-E евентуално би могъл да се употребява за злонамерена активност, измами и основаване на дийпфейк материали. Затова и Microsoft не дава изходния код на VALL-E за изпробване от други консуматори.
" Тъй като VALL-E би могъл да синтезира тирада, която поддържа идентичността на говорещия, той може да носи евентуални опасности при корист като, да вземем за пример, подправяне на гласова идентификация или корист със самия говорещ. За да се понижат такива опасности, е допустимо да се построи модел, който да разграничава дали даден аудиоклип е синтезиран от VALL-E. При по-нататъшното създаване на моделите ще използван на процедура и правилата на Microsoft за изкуствен интелект “, безапелационни са от софтуерния колос.
Източник: profit.bg
КОМЕНТАРИ




