Погасяването на шумовете е актуална тема в научните изследвания още

RNNoise: подари своя шум за обучението на невронната мрежа на Mozilla

Погасяването на шумовете е настояща тематика в научните проучвания още от 70-те години на предишния век. Въпреки забележителното усъвършенстване в качеството на сходни системи, тяхната архитектура на процедура не е изменена и до през днешния ден.
Технологията на спектралната оценка се базира на спектралната оценка на шума, която от своя страна, работи благодарение на детектор за гласовата интензивност (VAD) или различен сходен логаритъм. Всеки един от трите съставния елемент на този логаритъм изисква доста деликатно настройване и са сложни за конфигуриране. Сега Mozilla и Xiph.org измислиха нещо ново, което има огромно значение в тази област. Създадената от тях хибридна система RNNoise към този момент показва нелош резултат в погасяването на шумове (сорс код и демо).

Спектрограма за звука преди потреблението на RNNoise (човешка тирада със SNR 15 децибела)

Спектрограма на звука след обработката от RNNoise
Създавайки RNNoise, разработчиците са се пробвали да основат допустимо минимален и бърз логаритъм, който дейно може да работи даже и на Raspberry Pi. Те съумяха, а RNNoise демонстрира доста по-качествен резултат и от най-съвременните комплицирани и хитри филтри.

Структура на множеството логаритми за шумопотискане
Невронните мрежи и по-рано са употребявани за шумопотискане, а през последните години това е известна област за проучване. Но в тези решения се допуска, че те ще бъдат употребявани в приложенията за автоматизирано различаване на речта, където забавянето на сигнала и изчислителната мощ не са определящи фактори. За разлика от всички досегашни сходни технологии, планът на Mozilla работи напълно в действително време, като да вземем за пример по време на видеоконференции, и съумява да обработи пълностоен тон с периодичност на дискретизация 48 KHz.

Mozilla употребява хибриден метод, в който са задействани по едно и също време добре познатите до през днешния ден способи за погасяване на шумовете и дълбокото машинно образование, което заменя точно мъчно настройваните параметри в елементарните системи.

Новият логаритъм
Този хибриден метод се разграничава от end-to-end мрежите, в които невронната мрежа прави всичката работа по погасяването на шума. Тези системи потвърдиха високата си успеваемост, само че Mozilla ги смята за прекомерно комплицирани и употребяващи прекалено много запаси. Така да вземем за пример, RNN-мрежата на Гугъл за погасяване на шумовете непосредствено прави оценка равнищата на честотите. За обработката на 8 KHz тон тази мрежа употребява 6144 блока в скрити пластове и към 10 милиона разнообразни индикатора. Мащабирането на този метод до обработка на 48 KHz човешка тирада с фреймове от по 20 милисекунди би основало прекомерно комплицирана система с 400 входни сигнала (от 0 до 20 KHz), която сигурно няма да работи на Raspberry Pi.

Mozilla си е сложила цел да сътвори банален и бърз модел и експертите се стопираха на хибридния метод. Освен това те напълно се отхвърлиха от работата със фреймове и техния набор. Вместо това Mozilla раздели спектъра на 22 диапазона и проучва точно тях, а не 480-те комплицирани спектрални смисли, които се проучват в плана на Гугъл. Тези 22 диапазона подхождат на човешкото разбиране на звука. Подобно систематизиране се употребява и в кодека Opus, от който Mozilla е взела единствено базовия модел.

Подходът се оказа доста ефикасен. Програмата употребява скромна част от изчислителните запаси на процесорното ядро ARM Cortex-A53 с тактова периодичност 1,2 GHz (Raspberry Pi 3).

Тестовете демонстрират, че потреблението на невронна мрежа доста усъвършенства качеството на погасяването на шума. В изображенията по-долу е показано погасяването на шума от фонови диалози (вляво), коли (център) и уличния звук (дясното изображение), съпоставени с библиотеката SpeexDSP, основана на MMSE.

Сега разработчиците се обръщат към всички консуматори с молба да подарят своя звук за научни цели, т.е., за образованието на невронната мрежа. Шумът може да бъде подаден непосредствено онлайн. Молбата е това да бъде направено от всяко допустимо място, където е допустимо да се беседва на глас. Това може да е на всички места – в автомобила, на открито или на което и да е друго място, където можете да говорите по телефона да вземем за пример. В уеб-страницата е задоволително да се натисне бутона Record и да се помълчи една минута. За вярното образование на невронната мрежа е належащо и да се укаже, в какво обграждане е записвана тишината (шума).