Експертите на компанията WaveOne заявяват, че са близки до извършване

Първият видео кодек с машинно обучение кардинално изпревари всички днешни кодеци, включително H.265 и VP9

Експертите на компанията WaveOne декларират, че са близки до осъществяване на гражданска война в региона на видео компресията. При обработването на видео с висока резолюция (1080р) техният нов кодек с машинно образование компресира видеото с над 20% по-добре от най-съвременните обичайни видео кодеци, в това число H.265 и VP9. А при SD/VGA 640х480 пиксела разликата доближава 60%.

Разработчиците настояват, че днешните способи за видео компресия, осъществени в H.265 и VP9 с антични съгласно актуалните стандарти. „През последните 20 години основите на логаритмите за компресия на видео не са се трансформирали значително. Въпреки че са добре проектирани и подробно настроени, те са твърдо програмирани и не могат да се приспособяват към прекомерно разностранния набор на видеоматериалите.

Използването на машинно образование най-сетне ще придвижи технологиите за видео компресия в 21 век. Новият логаритъм на видео компресия доста превъзхожда днешните кодеци. Доколкото ни е известно, това е първият способ с машинно образование, посочил сходен резултат“ – споделиха основателите на новия кодек.

Пример за възобновяване на откъс от видео, компресирано с разнообразни кодеци, само че с идентичен брой BPP (битове на пиксел)
Основната концепция на компресията на видеото е премахването на повтарящите се непотребни данни и тяхната подмяна с къси описания, даващи опция за вярното възпроизвеждане на видеото по-късно. Компресията на видеото се реализира главно в два стадия.

При първия стадий се реализира компресия на придвижването. Тук кодекът търси движещите се обекти и се пробва да предскаже, къде ще се намират в идващия кадър. След това, вместо пикселите на тези обекти, логаритъмът кодира единствено формата на обекта дружно с направлението на придвижването. Има и логаритми, които преглеждат бъдещите фрагменти, с цел да дефинират придвижването още по-точно, само че тези метод очевидно не става за директни излъчвания.

При втората стъпка се маха повтарящата се информация от сегашния кадър по отношение на идващия. Така да вземем за пример, вместо да се записва цвета на всеки пиксел на синьото небе, компресиращият логаритъм дефинира региона с този цвят и указва, че той няма да се трансформира в идващите няколко фрагмента. Така тези пиксели си остават със същия цвят, до момента в който не дойде директива, че би трябвало да бъдат изменени.

Новият метод, препоръчан от учените, за първи път употребява машинно образование за възстановяване на изброените нагоре способи за компресия. Така да вземем за пример, при компресия на придвижването, машинното образование намира повтаряща се информация, там където общоприетите кодеци не могат да открият. Например, завъртането главата на индивида от анфас към профил, постоянно дава еднакъв резултат. „Традиционните кодеци не могат да предскажат профила на лицето по анфаса“ – настояват създателите на научната работа. „Новият кодек учи и натрупа статистика за тези фрагменти и основава пространствено-времеви шаблони, които употребява за прогнозиране на бъдещите кадри„.

Другият проблем е вярното разпределение на наличната пропускателна дарба сред компресията на придвижването и компресията на повтарящата се кадрова информация. В някои подиуми е по-важна компресията на придвижването, а в други – статичната компресия обезпечава най-хубав резултат. Оптималният компромис е друг за всеки кадър.

Традиционните логаритми обработват двата процеса настрана един от различен. Това значи, че няма елементарен метод, с който се дефинира на кой способ да се даде предимство и да се откри компромиса.

Учените се оправят с този проблем посредством едновременната компресия по двата метода и въз основата на сложността на фрагмента разпределят пропускателната дарба по най-ефикасния метод.

Тези и някои други модерни способи са дали опция за построяването на нов логаритъм за видео компресия, доста надминаващ обичайните кодеци.

Новата технология е напълно при започване на своето развиване и има някои основни дефекти, отбелязва изданието MIT Technology Review. Основният минус е, ниската изчислителна успеваемост – т.е., времето, належащо за шифроване и декодиране на видеото. С потреблението на платформата Nvidia Tesla V100 и видео с VGA размер, новият декодер работи със скорост към 10 фрагмента в секунда, а кодерът е още по-бавен – към 2 фрагмента в секунда.

Карти на оптичния поток на H.265 (отляво) и на WaveOne (отдясно) при идентичен битрейт
Скоростта на декодера очевидно не е задоволителна даже и за гледането на видео, компресирано с новия кодек. За гледане даже и на SD видео, към сегашен ден се постанова потреблението на цялостен изчислителен клъстър с няколко графични ускорителя. А за гледането на HD (1080р) видео ще е нужна цяла компютърна плантация.

Но технологията ще бъде усъвършенствана, ще се появят нови графични ускорители с невронни копроцесори и ще стане допустимо нейното потребление в малкия екран и филмите.
Бенчмаркове
При тестването е направено съпоставяне с всички водещи комерсиални кодеци HEVC/H.265, AVC/H.264, VP9 и HEVC HM 16.0. Всички кодеци са настроени за най-много компресия.

Използвани са идентични SD и HD клипове, постоянно употребявани за оценка на логаритмите за компресия на видео. При SD видеоклиповете е употребена VGA сбирката Consumer Digital Video Library (CDVL), включваща 34 клипа с общо 15 650 фрагмента. При HD е употребена сбирката Xiph 1080p: 22 клипа с общо 11 680 фрагмента.

Резултатите от тестванията са показани в следните диаграми:
#td_uid_41_5c00e12deaf22.td-doubleSlider-2.td-item1{background:url(https://i1.wp.com/www.kaldata.com/wp-content/uploads/2018/11/31-2.png?resize=80%2C60&ssl=1) 0 0 no-repeat}#td_uid_41_5c00e12deaf22.td-doubleSlider-2.td-item2{background:url(https://i0.wp.com/www.kaldata.com/wp-content/uploads/2018/11/32-1.png?resize=80%2C60&ssl=1) 0 0 no-repeat}#td_uid_41_5c00e12deaf22.td-doubleSlider-2.td-item3{background:url(https://i1.wp.com/www.kaldata.com/wp-content/uploads/2018/11/33-1.png?resize=80%2C60&ssl=1) 0 0 no-repeat}1 от 3

Ниска резолюция (SD)

Висока резолюция (HD)

Влияние на другите параметри на работата на WaveOne
Не бива да се учудваме на постигнатата доста висока компресия на видеото и на същественото предимство на кодека с машинно образование над обичайните кодеци. Това е една нова област, която бързо ще се развие с излизането на новите графични ускорители със доста по-висока продуктивност от днешните решения.