Изкуствен интелект ни приближава до директния превод от един език

...
Изкуствен интелект ни приближава до директния превод от един език
Коментари Харесай

Facebook ще ревежда езици директно един в друг


Изкуствен разсъдък ни доближава до директния превод от един език на различен
(снимка: CC0 Public Domain)

Фейсбук може да преведе на практика всяко документално наличие, оповестено в обществената мрежа, на локалния език, употребявайки автоматизиран машинен превод. Всъщност Фейсбук дава към 20 милиарда превода всеки ден единствено за своя News Feed. Системата обаче употребява нормално британския език като медиатор – т.е. преводът от китайски на френски минава от китайски на британски на френски.

Посредничеството има смисъл, защото наборите от данни за преводи на и от британски са солидни и необятно налични. Но, въпреки това, слагането на британския в средата на превода понижава общата акуратност, като в същото време прави целия развой по-сложен и муден, в сравнение с би трябвало.

Ето за какво Фейсбук AI създаде нов MT модел, който може в двете посоки да превежда непосредствено сред два езика (китайски на френски и френски на китайски), без в никакъв случай да употребява британски като медиатор, и който превъзхожда англоцентричния модел с 10 точки по BLEU метриките, заяви Engadget.

Основното предизвикателство в действителност е по какъв начин със съществуващите системи за превод да се отговори на потребностите на хората по целия свят, споделя Анджела Фан, теоретичен помощник във Фейсбук AI. Целта е системата да превежда непосредствено на всички езици и във всички направления.

Така да вземем за пример, има доста райони в света, където хората приказват голям брой езици, само че нито един от тях не е британски, до момента в който съществуващите системи за превод разчитат главно на данни единствено на британски. От милиардите изявления всекидневно на 160 езика в платформата на Фейсбук две трети са на език, друг от британския, отбелязва Фан.

M2M-100, първият многоезичен модел за машинен превод (MMT), може непосредствено да превежда напред-назад сред всяка двойка от набор от 100 езика. Като цяло Фейсбук AI е основал голям набор от данни, състоящ се от 7,5 милиарда фрази за 100 езика. Използвайки това, изследователският екип е обучил повсеместен модел за превод с повече от 15 милиарда параметъра, „ който улавя информация от сродни езици и отразява разнообразната книжовност на езиците и морфологията ”, разяснява Фейсбук в блог обява.
още по тематиката
За да направи това, Фейсбук е събрал набор от обществено налични данни от цялостен ​​свят, употребявайки разнообразни нови техники. Анджела Фан разказва изследователската работа през годините като създаване на система от разнообразни Lego части.

Първоначално екипът употребява CommonCrawl, който поддържа отворено вместилище на данни за обхождане на уеб, с цел да събира текстови образци от мрежата. След това се заема с идентифициране на езика на текста, употребявайки FastText – система за подредба на текстове, създадена от Фейсбук, чийто код е отворен преди няколко години.

„ Традиционно хората употребяват човешки преводачи, с цел да основават данни за превод. Това е комплицирано да се прави в мащаб, защото е мъчно, да вземем за пример, да се откри някой, който приказва британски и тамилски, само че още по-трудно е да се откри някой, който приказва френски и тамилски дружно, защото неанглийският превод към момента е област, която се нуждае от усъвършенстване ”, споделя Фан.

За да извлече нужните данни в мащаб, екипът разчита на системата LASER. Тя чете фрази, взема текста и основава математическо показване на този текст, тъй че изреченията, които имат едно и също значение, да отразяват една и съща мисъл. „ Така че, в случай че имам фрази на китайски и френски и те споделя едно и също нещо, те ще се припокрият – като диаграма на Вен, а припокриващата се област е типът текст, който съгласно нас са идентични фрази ”, разяснява Фан.

Разбира се, не всички езици разполагат с огромно количество документално наличие в интернет. В тези обстановки екипът на Фан се обръща към едноезични данни. „ Ако задачата ми е да превеждам от китайски на френски, само че по някаква причина не получавам положително качество, ще се опитам да подобря това, като взема текстове от едноезични данни на френски език. И това, което върша, е да образовам назад системата: преминавам от френски на китайски. Вземам целия текст на френски, да вземем за пример, от Уикипедия, и го превеждам на китайски ”.

По този метод се получават голям брой машинно генерирани „ синтетични ” данни, а моделът за превод става доста по-силен. Дали това ще докара до цифрова Babel Fish, способна да превежда без загуби сред 6200-те необичайно говорими езика, следва да разберем. Фен отбелязва, че крайният триумф на този план зависи от количеството запаси, които AI може да употребява.

За главните езици като френски, китайски, немски, испански и хинди тези запаси са големи. „ Хората пишат тонове текст в мрежата на тези езици”, означи Фен. „ Те в действителност съумяха да оказват помощ с доста данни и нашите модели могат да употребяват тези данни, с цел да се подобрят ”.

Фейсбук пуска набора от данни, модела, образованията и настройките за оценка като отворен код за изследователската общественост, с цел да подкрепи по-нататъшния прогрес. Компанията също по този начин възнамерява да продължи да развива системата независимо и в последна сметка да употребява технологията в ежедневните си интервенции.
Източник: technews.bg

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР