Пускането на процеса на обработка на данни е ускорено над

Mozilla подобри системата за разпознаване на реч DeepSpeech

Пускането на процеса на обработка на данни е ускорено над 500 пъти

Новата система DeepSpeech е доста по-бърза в разпознаването на тирада
(снимка: CCO Public Domain)

Разработчиците на Mozilla оповестиха актуализация на DeepSpeech – набор от принадлежности за различаване на тирада. Новата версия v0.6 се явява една от най-бързите системи за различаване на тирада с отворен код, налични сега.

Обновената DeepSpeech интегрира поддръжка на TensorFlow Lite, версия на системата за машинно образование на Гугъл, която е усъвършенствана за потребление на мобилни устройства с лимитирани благоприятни условия, заяви в блог обява Рубен Мораис, разработчик от Mozilla.

В резултат на това, размерът на DeepSpeech е намалял от 98MB на 3,7MB, а готовият вграден модел на британски език е сведен от 188MB на 47MB. В допълнение, потреблението наизуст е намаляло 22 пъти, а скоростта на пускане на процеса на обработка на данни е увеличена с над 500 пъти.
още по тематиката
Като цяло, системата DeepSpeech v0.6 е станала доста по-продуктивна, с помощта на потреблението на нов поточен декодер, който обезпечава непрекъснато ниско равнище на закъснения и потребление на паметта, без значение от дължината на записания тон.

И двете съществени подсистеми на платформата (акустичен модел и декодер) в този момент поддържат поточно предаване, тъй че разработчиците не би трябвало да уточняват личното си съоръжение. Обновената версия на DeepSpeech е в положение да обезпечи транскрипция единствено 260 милисекунди след края на аудиото, което е със 73% по-бързо, спрямо продуктивността на системата преди консолидираното на поточния декодер.

Заслужава да се означи, че във връзка с продуктивността, новата система работи два пъти по-бързо, когато става въпрос за образование на модела. Това е реализирано посредством потребление на системата TensorFlow 1.14 и консолидираното на нови приложни програмни интерфейси (API).

За образованието на модела се употребява набор от гласови данни Common Voice, състоящ се от 1400 часа тирада на 18 разнообразни езика. Разработчиците означават, че това е един от най-големите многоезични набори от гласови данни. Той е доста по-голям от Common Voice, оповестен в предишното и състоящ се от 500 часа тирада с образци за наречие от 20 000 доброволци (всички записи са на английски).

В момента екипът на Mozilla интензивно събира данни на 70 езика, с цел да направи DeepSpeech още по-усъвършенствана система за различаване на тирада.

Mozilla подобри системата за разпознаване на реч DeepSpeech

mozilla подобри

подобри системата

системата разпознаване

разпознаване реч

реч deepspeech

mozilla

подобри

системата

разпознаване

deepspeech