Въпреки че на всеки десет години се появяват нови стандарти

ИИ кодеците от новата епоха ще обърнат стрийминга с главата надолу

Въпреки че на всеки 10 години се появяват нови стандарти за кодеци, всички те се базират на пикселна математика – манипулиране на стойностите на обособените пиксели във видеокадъра, с цел да се отстрани информацията, която не е значима за усещането. Други математически интервенции понижават размера на данните след първичното шифроване.

Новото потомство кодеци употребява логаритми с машинно образование, с цел да проучва и схваща образното наличие на видеото, като разпознава непотребните данни и ги компресира по-ефективно. Вместо ръчно написани логаритми те употребяват способи, основани на образованието в Software 2.0. Тази област се развива от десетилетия, само че през последните няколко години получи мощен подтик. Всички знаят, че през 2017 година се наблюдаваше пробив в развиването на ИИ с помощта на изобретяването на трансформърите. Те, от своя страна, се базират на концепцията за вниманието, която бе изобретена през 90-те години на предишния век. Тази техника за първи път направи допустимо свързването на обособените елементи на текст или видеокадър една с друга.

При компресирането на кадър невронната мрежа го вижда целия и разпознава обектите, до момента в който обичайните енкодери работят на равнище макроблокове или фрагменти. С изобретяването на концепцията за вниманието невронната мрежа получи „ схващане “ за цялостната конструкция на входните данни, като можеше да обърне по-голямо внимание на някои елементи и да пренебрегва други. Това бе първокласен преход, чиито резултати чак в този момент стартират да се демонстрират.

Традиционните кодеци

„ Традиционен “ не значи „ стар “. В момента обичайните кодеци обезпечават най-ефективното компресиране на видео, а с всеки нов кодек степента на компресия се усилва с десетки проценти. Кодеците с невронни мрежи (за тях по-долу) до момента не са потвърдили качеството си, с цел да можем решително да признаем тяхното бъдеще. Засега най-хубави резултати по индикатора за качеството (PSNR) демонстрират хибридните модели – обичайни кодеци с невронномрежови усъвършенствания, като да вземем за пример NeutronStar и Night-Watch с декодери от по 100-300 MB.

Кодекът H.264 (AVC) ни служи добре към този момент 20 години, а с помощта на безплатната библиотека OpenH264 всеки може да го употребява без никакви условия или лицензионни такси. Но в този момент е време да разгледаме по-съвременните други възможности: H.265 (HEVC), формалният правоприемник на AVC, към момента не се е наложил в известните платформи заради нуждата от възнаграждение на лицензионни такси. Безплатни планове като Firefox съзнателно отхвърлят да го поддържат по съвсем същата причина. HEVC е създаден преди десетилетие и към този момент се счита за претендент за отпадане, защото в никакъв случай не е имал необикновен триумф. AOMedia Video 1 (AV1) е безвъзмездна опция на HEVC, която бе показана през 2018 година от консорциум от компании, воден от Гугъл, като сурогат на предходния безвъзмезден кодек VP9. H.266 (VVC), Versatile Video Coding, е нов стандарт за компресия, излязъл през юли 2020 година Изчислителната трудност на компресията се е нараснала няколко пъти (до 10 пъти) спрямо HEVC, а сложността на декомпресията се е удвоила.

За съпоставяне, ето скоростта на шифроване при най-бавните настройки (AMD Ryzen 7950X, анимационен филм Sintel във формат AVC, 4,2 GB:

Компресиране

Декомпресия

HEVC

2 часа и 34 минути

1 минута и 14 секунди

AV1

18 часа 54 минути

1 минута и 42 секунди

VVC

2 дни, 10 часа и 35 минути

2 минути 42 секунди

VVC също изисква лицензионна такса, тъй че може да повтори нежеланата орис на HEVC.

AV1 се употребява с най-голяма поддръжка от страна на промишлеността. Всички огромни платформи за видео (YouTube, Netflix и др.) наподобява се пробват да вкарат поддръжката на този безвъзмезден кодек, който във връзка с компресията превъзхожда платения кодек HEVC.

В същото време работните групи на VCEG и MPEG също не стопират да работят. След като издадоха H.266 (VVC), в този момент те работят редом по две нови генерации кодеци: Essential Video Coding (EVC) и Low Complexity Enhancement Video Coding (LCEVC), като подмножество на EVC (тип I) ще бъде освободено от лицензионни такси.

Netflix и AI кодеците

Счита се, че новото потомство кодеци ще бъде основано благодарение на машинно образование (ML).

Нека да си напомним, че през месец март 2023 година Apple ненадейно купи WaveOne – стартъп, който създава логаритми с детайли на изкуствен интелект, които се употребяват за компресиране на видео.

Тази договорка даде явен сигнал за посоката, в която се движи промишлеността за компресиране на видео. Може би в бъдеще ще бъдат основани нови логаритми за оптимално компресиране, употребяващи модела Software 2.0, т.е. генерирани в невронните мрежи. Накратко, схемата работи по следния метод: „ Разработчикът си слага цели и основава недодялан скелет на кода (т.е. архитектура на невронна мрежа), който дефинира подмножеството на софтуерното пространство за търсене, и по-късно употребява компютърните запаси, с които разполага, с цел да търси в това пространство стратегия, която работи„. Резултатът е програмен продукт под формата на тегла за модела. Резултатът от основаването на тази стратегия наподобява по следния метод:

Новият метод ще даде опция за основаване на програмен продукт, който е фундаментално по-сложен и не предстои на човешко схващане.

Кодеците за компресиране на видео са едно от най-очевидните приложения на Software 2.0, защото даже в този момент е съвсем невероятно да бъдат разбрани заради тяхната трудност. Така че с потреблението на „ черната кутия “ на невронната мрежа нищо изключително няма да се промени…

Ако Apple е вложила в тази технология, тя явно чака да я употребява в многочислените си артикули за обработка на видео, а може би даже и в неотдавна показания хедсет за добавена действителност. Кодеците са си такива – в случай че в действителност работят доста дейно, те се употребяват на всички места, където се работи с видео.

Известно е, че технологията на кодека WaveOne AI има логаритъм и кодек, които зависят от наличието, т.е. от смисловото наличие на фрагмента:

В това изображение лицата и текста са с доста висока резолюция, а фонът е с ниска разграничителна дарба

В рекламните материали на този стартъп е даден образец, при който най-голям приоритет за компресия с допустимо най-висока подробност се дава на лицата на хората и на текста, до момента в който фонът може да бъде компресиран с подробност от приблизително равнище.

Веднага след договорката с Apple формалният уеб страница на WaveOne бе затворен, само че може да бъде прегледан в уеб архива. Има малко изложение на компресията, като се вземат поради тематиката на видеото и семантиката (конкретните обекти във видеото). Дадени са линкове към научни публикации.

Очевидно е, че когато се вземе поради наличието на видеото, коефициентът на компресия може доста да се усъвършенства, а цялостното качество на видеото субективно ще се увеличи, защото областите на човешкото внимание ще бъдат допустимо най-подробни. Просто би трябвало да разберем накъде е ориентирано човешкото внимание, когато гледаме даден видеоклип. Лицата и текстът са най-очевидният избор.

WaveOne надалеч не е единственият стартъп, който създава технология за компресиране на видео благодарение на изкуствен интелект. Според специалистите кодирането с отчитане на наличието (CAE) се развива от 2015 година насам, като тогава Netflix е първата компания в света, въвела технологията за компресиране на видео с CAE.

Ако някой е гледал стрийма на Netflix, може би е забелязал характерната компресия без доста артефакти. Понякога наподобява по този начин, като че ли видеото се излъчва въобще без компресия, макар че това е физически невероятно въз основа на размера на некомпресираните фрагменти, а трафикът демонстрира компресиран поток.

Това качество е мъчно постижимо със общоприетите кодеци като H.264 и H.265. Всъщност това е патентованата технология за компресия за CAE компресия на Netflix, създадена взаимно благодарение на AI, при която за всеки филм се основава нов обособен кодек и даже за обособените фрагменти (per-tile/per-chunk encoding).

Ако вземете видео поток от Netflix и го кодирате с елементарен H.265/HEVC или AV1 кодек, даже при оптимални настройки на качеството материалът ще бъде образно унищожен. Очевидно е, че в торентите не можете да намерите филми със същото качество като в Netflix, колкото и тъжно да е това… Може би този факт е повода, заради която компанията преди време усили потребителската си база (и понижи разноските за трафик). Ето по какъв начин сега в бизнеса се употребяват кодеци с изкуствен интелект от последващо потомство, които носят действителни и огромни пари.

Според самостоятелни проби качеството на CAE кодеците към момента е по-ниско от това на AV1, да не приказваме за другите кодеци с невронно усъвършенстване от вида на NeutronStar и Night-Watch. Очевидно Netflix ги употребява в допълнение към главните HEVC и AV1 кодеци, с цел да спести трафик и да усъвършенства качеството на картината на някои места. Например, да приложи невронна предварителна обработка на видеопотока, както прави започващата компания iSize.

Въпреки това кодекът с изкуствен интелект на WaveOne образно превъзхожда конкуренцията при еднакъв битрейт, макар че невронната мрежа не се управлява от математически характерности като съответствие сигнал-шум (SNR), показател на структурно подобие (SSIM) и пиково съответствие сигнал-шум (PSNR), а съответно от човешкото усещане. Да, това е субективно. Но е теоретичен факт, че хората виждат и най-малките изкривявания на чертите на лицето, само че не обръщат съвсем никакво внимание на останалите (фонови) елементи, тъй че компресията, съобразена със наличието, има смисъл.

За страдание Netflix не просто пази своите технологии в загадка, само че и строго ги пази като търговски секрети. Harmonic, WaveOne и другите започващи компании в тази област вършат същото. Както писахме нагоре, Apple отстрани софтуерния уеб уебсайт незабавно откакто го купи. Поради тази причина общественият прогрес в основаването на идващото потомство кодеци CAE се забавя. Но пък Apple забогатява.

По-нататъшният прогрес в компресирането на видео (а по-късно и в обичайните архиватори и различен софтуер) е тясно обвързван с напредъка в машинното образование. Сред фирмите, които употребяват изкуствен интелект за възстановяване на общоприетите кодеци, са Bitmovin, Beamr и NGCodec, която към този момент е купена от AMD.

Може би в бъдеще ще забележим коренно нови подходи към компресирането. Така да вземем за пример кодекът Vnova понижава разграничителната дарба на видеото преди неговото лъчение, с цел да спести трафик, и я усилва от страна на клиента, като възвръща нещо сходно на оригинала, само че с висока разграничителна дарба. По тази логичност би могло да се предава единствено текстово изложение и картината напълно да се генерира в приемащото устройство. Да се надяваме, че няма да се стигне дотам…