Да накараш още един милиард души да са онлайн звучи

Да накараш още един милиард души да са онлайн звучи ...

Цифровата пропаст всъщност е… езикова.


Да накараш още един милиард души да са онлайн звучи като голяма работа, но когато те се регистрират за първи път в мрежата, ще открият, че интернет няма какво да им предложи на родния език

Приблизително 5% от хората по света говорят английски вкъщи, но около 50% от съдържанието в интернет е на английски (илюстрация: CCO Public Domain)

Около половината от населението на света все още няма достъп до интернет. Компании като Facebook, SpaceX и Amazon искат да променят това. Те работят по пускането на съзвездия от сателити в небето, които да излъчват интернет до всяка точка на Земята. Но дори и тези проекти да са успешни, проблемът с достъпа до интернет може би е не толкова технологичен. Има друга, по-съществена пречка пред преодоляването на цифровото разделение: езикът.

Хиляди различни езици се говорят по света. Ала по-голямата част от съдържанието в мрежата е достъпна само на няколко избрани езика, основно английски. Повече от 10% от Wikipedia е написана на английски език и почти половината от статиите на сайта са на европейски речи. Да накараш още един милиард души да са онлайн звучи като голяма работа, но нека си представим какво ще стане, когато тези потребители се регистрират за първи път – те ще открият, че интернет няма какво да им предложи на техния език.
още по темата
„Приблизително 5% от хората по света говорят английски вкъщи”, казва Хуан Ортис Фроулър, член на Фондация „Световна мрежа”, цитиран от Wired. Въпреки това около 50% от съдържанието в интернет е на английски.

Проблемът с дигиталната пропаст не е в технологиите, казва Кристен Чернешоф, директор на организация Wikitongues, която насърчава езиковото многообразие. Корпорациите и правителствата рядко предоставят ресурсите и подкрепата, необходими за $качването” на по-малките езици онлайн.

За подобна ситуация има исторически причини. Повечето от най-големите онлайн платформи са създадени в САЩ, в Силициевата долина – и са развити предимно като англоезични потребителски бази. Тъй като те се разпространяват по света и на различни езици, то другите езици винаги са догонващи.

Но това догонване не е незначително. Facebook, например, е обект на остри критики, че не използва достатъчно местни администратори, за да наблюдава съдържанието в страни, където има милиони потребители. В Мианмар компанията от години има само шепа модератори, въпреки че т.нар. реч на омразата се разпространяваше бързо. По-късно Facebook призна, че не е направила достатъчно, за да предотврати използването на платформата си за подбуждане към насилие в страната.

Друга част от проблема произтича от факта, че на „малки” езици са създадени сравнително малко „набори от данни”, които да са подходящи за обучение на инструменти за изкуствен интелект. Например, езикът синхала, който се говори от около 17 милиона души в Шри Ланка и може да се пише по четири различни начина, е предизвикателство. Алгоритмите на Facebook, обучени предимно на английски и редица европейски езици, не го „картографират” добре. Това прави трудно управлението на платформи под този език.

Ала езиковото многообразие е нещо повече от практичност, когато става дума за изразяване, казва Чернешоф. Шегите, емоциите и изкуството често са трудни, ако не и невъзможни за превеждане на друг език.

До някаква степен отговорът на проблема е в „отворения код”, изглежда. Mozilla е организация, работеща за натрупването на множество набори от езикови данни, които да могат да се използват от всеки разработчик безплатно – като Common Voice, който – според организацията – е „най-разнообразният набор от гласови данни в света”. Проектът е предназначен да даде на инженерите инструментите, от които се нуждаят, за да изградят неща като програми за превръщане на говора в текст на различни езици.

Марк Сурман, изпълнителен директор на Mozilla Foundation, смята, че масивите от данни с отворен код като Common Voice са сред малкото жизнеспособни начини за осигуряване на повече езиково многообразие в нововъзникващите технологични системи. В организациите с комерсиална цел – т.е. във фирмите – този проблем „пада много ниско в икономическата стълбица”, казва Сурман.

Привличането на повече езици онлайн може в крайна сметка да се окаже „упражнение по запазване на културата”, а не само въпрос на ползваемост. И за да се постигне това, насърчаването на езиковото разнообразие в интернет е нужно и ще изисква съгласувани усилия от хора по цял свят.

Източник: technews.bg