Mozilla представи свободна и отворена система за разпознаване на човешка реч
Проектът Mozilla разгласява първата версия на своята нова система за машинно образование, предопределена за различаване на тирада.
Публикувани са и употребяваните за тренирането на системата гласови данни, събрани по време на самодейността Common Voice, в която са включени образци с произношенията на към 20 000 души, споделили съвсем 400 000 записа на своята тирада с дълготрайност 500 часа.
Благодарение на огромния брой доброволци е образувана една от най-големите бази с гласови шаблони. В момента, грешките при разпознаването са на равнище 6,5% при тестванията LibriSpeech. Това е доста добър резултат, тъй като човешкото равнище на различаване е оценено на 5,83%, грешките на Гугъл Speech са 6,64%, на wit.ai — 7,94%, Bing Speech — 11,73%, Apple Dictation — 14,24%.
Системата за различаване на речта на Mozilla се базира на енджина DeepSpeech , основан благодарение на отворената платформа на Гугъл за машинно образование TensorFlow. Новата система на Mozilla се доставя с програмни модули на Python и NodeJS, даващи опция за напълно лесното вграждане на функционалности за различаване на речта във всевъзможни приложения. Предвидени са и принадлежности за работа от команден ред. Енджинът е доста бърз и може да работи даже и с Raspberry Pi.
Публикувани са и употребяваните за тренирането на системата гласови данни, събрани по време на самодейността Common Voice, в която са включени образци с произношенията на към 20 000 души, споделили съвсем 400 000 записа на своята тирада с дълготрайност 500 часа.
Благодарение на огромния брой доброволци е образувана една от най-големите бази с гласови шаблони. В момента, грешките при разпознаването са на равнище 6,5% при тестванията LibriSpeech. Това е доста добър резултат, тъй като човешкото равнище на различаване е оценено на 5,83%, грешките на Гугъл Speech са 6,64%, на wit.ai — 7,94%, Bing Speech — 11,73%, Apple Dictation — 14,24%.
Системата за различаване на речта на Mozilla се базира на енджина DeepSpeech , основан благодарение на отворената платформа на Гугъл за машинно образование TensorFlow. Новата система на Mozilla се доставя с програмни модули на Python и NodeJS, даващи опция за напълно лесното вграждане на функционалности за различаване на речта във всевъзможни приложения. Предвидени са и принадлежности за работа от команден ред. Енджинът е доста бърз и може да работи даже и с Raspberry Pi.
Източник: kaldata.com
КОМЕНТАРИ




