Meta Platforms представиха през тази седмица Voicebox, генеративен AI модел,

Meta представи Voicebox

Meta Platforms показаха през тази седмица Voicebox, генеративен AI модел, кадърен да прави разнообразни задания, измежду които синтезиране на тирада, стилизиране и редакция на наличие, предава Silicon Angle.

Създателите на Voicebox разказват технологията, като такава, която прави с речта това, което услуги, като ChatGPT и DALL-E вършат с блокове теккст и изображения надлежно.

„ Подобно на генеративните системи за изображения и текст, Voicebox основава резултати в разнообразни стилове и може да основава сходни резултати, както от нулата, по този начин и да трансформира подготвена проба. Но вместо да основава картина или текст, Voicebox генерира висококачествени аудио клипове “, пишат откривателите от AI отдела на Meta. Voicebox е технология, способна да синтезира тирада на шест разнообразни езика без профилирано образование, а също по този начин и да редактира наличие, включително промяна на паузи и спирания, смяна на стила на говорене и да генерира гласови образец с разнообразни гласове, допълват експертите.

Това, което отличава Voicebox от другите сходни модели е, че те не могат да генерализират наличие при заложени голям брой задания и би трябвало да бъдат подготвени особено за разнообразни задача посредством профилирано образование. Meta са съумели да накарат Voicebox да звучи повече човешки, като построяват модел на основата модела на съпоставянето на потоци, който разрешава на изкуствения разсъдък да се учи от разнообразна езикова информация без потребността от етикитиране на обособените вариации на речта.

Технологията може да употребява едвам две секунден тон, с цел да го съпостави с избрана езикова проба и да го употребява за генерирането на текст към тирада. Заедно с това, Voicebox може да редактира към този момент подготвени звукови клипове, с цел да подхождат на избран жанр, да възпроизвежда разнообразни гласове, тонове и темп, да предсказва какви думи са били казани и да дефинират по какъв начин би трябвало да звучат, в случай че са прекратени по време на клипа. Meta акцентира риска Voicebox да бъде употребен непозволено, което е и повода той да не бъде пуснат в обществен достъп. Microsoft също не разгласяват VALL-E заради същата причина.

„ Докато имаме вяра, че е значимо да сме открити с AI общността и да споделим рано резултатите от проучването ни за да подобрим изследванията в региона, то е нужно да бъде спазван точния баланс сред неприкритост и отговорност “, пишат Meta.