Изкуствен интелект симулира гласа на всеки
Почитателите на филмите " Терминатор " знаят, че едноименните роботи имат способността да копират гласа на всеки. Същото към този момент е допустимо и в действителността посредством нов изкуствен интелект, оповестява Ars technica.
Изкуственият разсъдък VALL-E е дело на Microsoft. Той може да синтезира гласа на всеки човек, като даже резервира прочувствен звук на изявлението. Така всеки може да бъде " записан " да споделя каквото и да е даже това да не се е случило.
За задачата VALL-E е нуждае от едвам 3 сек. запис на истинския глас. Това е задоволително, с цел да се проучват акустичните характерности на гласа. Той се разделя на " токени ", т.е. дребни детайли, които се съпоставят с база данни. Чрез тях изкуственият разсъдък " схваща " по какъв начин би звучал гласът във всевъзможни обстановки и изявления.
VALL-E е основан на EnCodec на Meta, като е подготвен с база данни от над 60 000 часа записи на 7000 англоговорящи. За в този момент изкуственият разсъдък може да синтезира глас единствено на британски. Резултатите са най-хубави, в случай че гласът е подобен с някой от към този момент наличните в базата данни.
Но капацитетът му е забележим и има и още благоприятни условия. Една от тях е да генерира и акустичната среда към гласа, т.е. да звучи като че ли приказва по телефона да вземем за пример. Могат да се генерират и вариации в тона на гласа.
Заради евентуалния риск от операции и злоупотреби, Microsoft не разгласява кода на изкуствения разсъдък. Експертите споделят, че първо би трябвало да се направи различен компютърен модел, който да може да проучва записите и да споделя дали те са истински или синтезирани от изкуствен интелект.
Изкуственият разсъдък VALL-E е дело на Microsoft. Той може да синтезира гласа на всеки човек, като даже резервира прочувствен звук на изявлението. Така всеки може да бъде " записан " да споделя каквото и да е даже това да не се е случило.
За задачата VALL-E е нуждае от едвам 3 сек. запис на истинския глас. Това е задоволително, с цел да се проучват акустичните характерности на гласа. Той се разделя на " токени ", т.е. дребни детайли, които се съпоставят с база данни. Чрез тях изкуственият разсъдък " схваща " по какъв начин би звучал гласът във всевъзможни обстановки и изявления.
VALL-E е основан на EnCodec на Meta, като е подготвен с база данни от над 60 000 часа записи на 7000 англоговорящи. За в този момент изкуственият разсъдък може да синтезира глас единствено на британски. Резултатите са най-хубави, в случай че гласът е подобен с някой от към този момент наличните в базата данни.
Но капацитетът му е забележим и има и още благоприятни условия. Една от тях е да генерира и акустичната среда към гласа, т.е. да звучи като че ли приказва по телефона да вземем за пример. Могат да се генерират и вариации в тона на гласа.
Заради евентуалния риск от операции и злоупотреби, Microsoft не разгласява кода на изкуствения разсъдък. Експертите споделят, че първо би трябвало да се направи различен компютърен модел, който да може да проучва записите и да споделя дали те са истински или синтезирани от изкуствен интелект.
Източник: novinite.bg
КОМЕНТАРИ