Изследователски екип в Китай твърди, че е разработил текстова програма

Google помага на китайски изкуствен интелект да цензурира текст с 91% точност

Изследователски екип в Китай твърди, че е създал текстова стратегия – цензор, която може да филтрира „ нездравословната информация “ в Интернет с невиждана акуратност, употребявайки изкуствен интелект. Традиционните машинни цензори разчитат най-вече на основни думи, с цел да реализиран това и се борят за реализиране на 70% акуратност, до момента в който технологията с изкуствения разсъдък, която би трябвало да бъде подготвена от хората, е достигнала до към 80% през последните години.

Екипът от университета Шенян Лигонг и Китайската академия на науките споделят, че тяхната технология за изкуствен интелект не би трябвало да се образова от хората и „ надминава други подходи “, с цел да реализира акуратност над 91%.

Би било изключително потребно да „ идентифицираме и филтрираме сензитивна информация от онлайн новинарските медии “, пишат водещият откривател Ли Шу и нейните сътрудници в публикация, оповестена в Journal of Chinese Computer Systems в понеделник.

Китай има повече от 900 милиона консуматори на интернет, повече от която и да е друга страна, и построява най-големите 5G мрежи в света за повишение на скоростта на връзка. Но интернет е строго следен, като доста уеб сайтове са блокирани, в това число Гугъл, Фейсбук, Twitter и някои задгранични осведомителни бюлетини – и огромна част от наличието в уеб страниците, които са разполагаем, е неразрешено.

Забранените тематики са широкообхватни – от порнография до култове, корист с опиати, приложимост на огнестрелно оръжие, тероризъм и офанзиви против Комунистическата партия и нейните висши водачи.

Но идентифицирането им е предизвикателство за компютрите. Китайският е един от най-сложните езици в света, с близо 10 000 знака. А сензитивните думи – да вземем за пример револвер – могат да бъдат взети в безчувствен подтекст, да задействат подправена тревога или противозаконна информация да бъде оповестена онлайн, без да се употребяват чувствителни думи.

Вместо това китайското държавно управление и интернет фирмите разчитат на голяма войска от цензори, с цел да ревизират ръчно онлайн наличието, само че е прекомерно скъпо и неефективно, с цел да се оправи с повишаването на информацията в китайския интернет и обществените медии.

Ли, доцент по компютърни науки в университета Шенян Лигонг, декларира, че технологията, създадена от нейния екип, може да е в крайник с бързо развиващия се език, употребен онлайн в Китай, с помощта на мощен речник, съдържащ освен чувствителни думи, само че и изменящите им се форми.

Тя добави, че изкуственият разсъдък може да чете и сред редовете при търсене на нелегално наличие, което е прикрито в друг подтекст, увеличавайки способността да се разпознава текст, който е написан по метод, който заобикаля машинните цензури. Много консуматори на интернет в Китай заобикалят да употребяват чувствителни думи и вместо това употребяват омоними или прибавят тирета сред знаците, с цел да объркат цензурата.

Част от технологията за цензура идва от Гугъл, разкрива Ли. През 2017 година Гугъл създава езиков модел с отворен код, прочут като двупосочни представяния на кодери от трансформатори или BERT, с цел да помогне на своята търсачка да разбере по-добре термините за търсене на потребителите. BERT може да чете дума в друг подтекст – като „ препускане с кон “ против „ сърдечно препускане “ – вследствие на четене на големи текстови бази данни, в това число целия уебсайт на Уикипедия.

Но BERT не е цензор по план и не може да разбере текст, по-дълъг от 512 думи. За да работи, машината на Ли разрушава дълъг текст на сегменти, разрешава на BERT да чете по-късите елементи и употребява различен инструмент основан на изкуствен интелект, с цел да комбинира резултатите и да ги оцени благодарение на най-актуалния речник.

Гугъл не пожела да разяснява тази информация.

Китай влага съществено в изкуствен интелект и технологията от ден на ден се трансформира в част от всекидневието в Китай – от електронната търговия, през обществените пространства, където камерите за наблюдаване са оборудвани с различаване на лица, до военните потребности.

Вижте още: