Google представи Tacotron 2: новата система за преобразуване на текст в човешка реч
Google заяви, че основаването на система за превръщане на текст в естествено звучаща човешка тирада е една от предпочитаните цели на корпорацията. Новата версия Tacotron 2 на тази система се оправя с тази задача доста по-ефективно от предходните Tacotron и WaveNet, освен това с потреблението на по-малко запаси.
Предишните системи за генериране на тирада имаха основни дефекти. WaveNet да вземем за пример, издава непредвидени и режещи звука звуци. Нейният логаритъм доста дейно преобразува текста, само че за неговата сполучлива работа е належащо голямо количество метаданни от произношението до характерните езикови особености. Tacotron се оправя доста по-добре с интонациите, само че не може да предложи пълноценно превръщане.
В Tacotron 2 са отстранени минусите на предходните системи. Използвани са сполучливите функционалности на предходните логаритми с усъвършенствана система за струпване на данните за образование.
За изчисляването на лингвистичните правила, логаритъмът има потребност от самия текст и неговото озвучаване, от които се образува специфична Tacotron спектрограма, посредством която се дефинира ритъма и ударенията, а думите се генерират от функционалностите на WaveNet.
Демонстрационните записи демонстрират, че генерираната от компютъра тирада в действителност доста наподобява на човешката, единствено някои думи са малко неразбираеми. Темпът на речта е безапелационен, произношението е положително. Понякога ударенията са неправилни и към този момент липсва звук – няма по какъв начин фразите да бъдат произнесени радостно и оптимистично или жестоко и самонадеяно.
Предишните системи за генериране на тирада имаха основни дефекти. WaveNet да вземем за пример, издава непредвидени и режещи звука звуци. Нейният логаритъм доста дейно преобразува текста, само че за неговата сполучлива работа е належащо голямо количество метаданни от произношението до характерните езикови особености. Tacotron се оправя доста по-добре с интонациите, само че не може да предложи пълноценно превръщане.
В Tacotron 2 са отстранени минусите на предходните системи. Използвани са сполучливите функционалности на предходните логаритми с усъвършенствана система за струпване на данните за образование.
За изчисляването на лингвистичните правила, логаритъмът има потребност от самия текст и неговото озвучаване, от които се образува специфична Tacotron спектрограма, посредством която се дефинира ритъма и ударенията, а думите се генерират от функционалностите на WaveNet.
Демонстрационните записи демонстрират, че генерираната от компютъра тирада в действителност доста наподобява на човешката, единствено някои думи са малко неразбираеми. Темпът на речта е безапелационен, произношението е положително. Понякога ударенията са неправилни и към този момент липсва звук – няма по какъв начин фразите да бъдат произнесени радостно и оптимистично или жестоко и самонадеяно.
Източник: kaldata.com
КОМЕНТАРИ




