Чатботът ChatGPT, разработен от OpenAI, е способен да дава отговори

Защо изкуственият интелект трябва да научи повече езици

Чатботът ChatGPT, създаден от OpenAI, е кадърен да дава отговори на въпроси по всевъзможни тематики - от нуклеарно инженерство до стоическа философия. Проблемът е, че положителните му резултати към този момент са единствено на британски език, написа Darik Business Review.

The Economist споделя най-новата версия -ChatGPT-4, отбелязва 85% на общ тест с въпроси и отговори. На други езици обаче тя напълно не се показва толкоз впечатляващо.

При полагане на теста на индийския език телугу, да вземем за пример, говорен от близо 100 милиона души, чатботът отбелязва единствено 62% правилни отговори.

OpenAI не разкрива доста детайлности за това по какъв начин е основан ChatGPT-4. Но един взор към неговия предшественикChatGPT-3може да даде някои насоки. Големите езикови модели (LLM) се образоват върху текст, извлечен от интернет, където британският език господства в доста огромна степен.

Около 93% от данните за образование на ChatGPT-3 са били на британски език. В Common Crawl, който е единствено един от наборите от данни, върху които е подготвен моделът, британският съставлява 47% от корпуса, като други (най-вече сродни) европейски езици съставляват 38%.

За разлика от тях, китайциският и японският дружно съставляват едвам 9%. А тежестта на Телугу даже не влиза в границите на грешките при закръгляване.

Според оценката на Натаниел Робинсън, откривател от университета Джон Хопкинс, това не е проблем, стеснен до ChatGPT. Всички LLM се оправят по-добре с езици с " висок запас ", за които има доста данни за образование, в сравнение с с по-рядко срещаните.

Това е проблем за хората и фирмите, които се надяват да " изнасят " AI в бедните страни, с вярата, че технологията може да усъвършенства доста аспекти от всекидневието им - от учебните заведения до опазването на здравето.

Това е и повода, заради която доста откриватели по света работят, с цел да " научат " изкуствения разсъдък на повече езици.
Може ли AI да стане полиглот?
Правителството на Индия е изключително интензивно по тази тематика. Много от обществени услуги в страната към този момент са цифровизирани и тя се стреми да ги укрепи с AI. През септември предходната година беше показан чатбот, чиято цел е да помогне на фермерите да получат информация за държавните помощи.

Ботът работи, като " споява " два типа езикови модели в едно, споделя Шанкар Марувада от неправителствената организация EkStep Foundation, която оказа помощ за построяването му.

Потребителите могат да изпращат поръчки на родния си език, а по-късно те се предават на програмен продукт за машинен превод, който ги превежда на британски. Английската версия на въпроса се подава на езиковия модел, а отговорът му се превежда назад на майчиния език на потребителя.

Системата наподобява работи приемливо, само че преводът на поръчки на желания от LLM език е много тромаво решение.

Една от другите възможности е да се модифицира частта от LLM, която " нарязва " думите на по-малки части, наречени токени, с цел да може останалата част от модела да се манипулира.

Например, текст на деванагари (писменост, употребена с езика хинди) се нуждае от три до четири пъти повече токени, когато се обработва по общоприетия метод, в сравнение с същия текст на британски.

Индийският стартъп Sarvam AI е създал токенизатор, усъвършенстван за хинди, който доста понижава броя на интервенциите. По-малко токени значат по-малко калкулации. Създателите на аргоритъма считат, че той може да понижи разноските за отговаряне на въпроси с към три четвърти.

Друга опция е да се подобрят наборите от данни, на които се образоват огромните езикови модели. Често това значи дигитализиране на печатни и ръкописни текстове на физически носители.

През ноември предходната година екип от откриватели от университета Мохамед бин Зайед в Абу Даби пусна най-новата версия на арабскоговорящ модел, наименуван Jais. Той има една шеста от параметрите на ChatGPT-3, само че се показва наедно с него в тестванията на арабски език.
Могат ли хората да обучат езиковите модели?
Третият вид е да се трансформират моделите, откакто към този момент са били подготвени. Както Jais, по този начин и OpenHathi са имали двойки въпроси и отговори, ръчно заложени от хора. Същото се случва и със западните чатботове, като инструмент против разпространението на дезинформация.

Ernie Bot на китайския софтуерен колос Baidu беше изменен, с цел да спре да споделя неща, против които държавното управление може да възрази. Моделите могат да се учат и от човешката противоположна връзка, в която потребителите правят оценка отговорите им.

Но това е мъчно да се направи за доста езици от по-бедните страни, защото изисква набиране на задоволително огромен брой квалифицирани експерти.

Колко добре ще работи всичко това, следва да забележим. Една четвърт от възрастните в Индия са необразовани - проблем, който никакви настройки на LLM не могат да решат.

Много индийци избират да употребяват гласови известия за връзка, в сравнение с текстови. AI може да трансформира речта в текст (индийският чатбот за фермерите, да вземем за пример, го прави), само че това прибавя още една стъпка, при която могат да се промъкнат неточности.

И е допустимо основателите на местни езикови модели, в последна сметка, да бъдат извадени от бизнеса заради напъните на огромните имена от Силициевата котловина.

Въпреки че надалеч не е съвършен, ChatGPT-4 е доста по-добър от ChatGPT-3 в отговорите на въпроси на езици, разнообразни от британския.

Но какъвто и метод да бъде определен, в случай че AI се научи да приказва на всички 7000 международни езика, резултатът няма по какъв начин да бъде отрицателен.

Чатботът ChatGPT, разработен от OpenAI, е способен да дава отговори

Защо изкуственият интелект трябва да научи повече езици

защо изкуственият

изкуственият интелект

интелект трябва

трябва научи

научи повече

повече езици

защо

изкуственият

интелект

трябва

научи

повече

езици

Лек автомобил се преобърна по таван в столицата Инцидентът е

Проектобюджетът за 2026 година не е бюджетът който обществото очакваше

Проектобюджетът за 2026 г е можел да бъде значително по

Софийската районна прокуратура разпореди цялостна проверка на състоянието на пътния

Оценка 3 би поставила на бюджета Деница Сачева от ГЕРБ

Украинската военновъздушна отбрана през нощта е прехванала или унищожила 113

Изкуственият интелект е използван във Великобритания за разработване на нов

Разбрахме вчера от медиите че от 24 юни съм освободена

Щатът Юта наложи ограничения върху фойерверките и обяви извънредно положение

Днес е Световният ден на риболова Чества се от 1985

За нас президентските избори никога не са били най важните

50 евро ще е първата празнична добавка която ще се

Проектобюджетът за 2026 година не е бюджетът който обществото очакваше

През седмицата тежък инцидент насочи вниманието ни отново към пътищата

Този бюджет няма никаква философия и никаква цел Няма случай

От понеделник 29 юни 2026 г проф д р Милена

Доналд Тръмп представи изображение на нов американски паспорт в ограничен

Моряците подписаха с Мохамед Аши Буаклин Френският халф от марокански

Трябва да бъдем доволни каза Бубиста Селекционерът на националния отбор

Хората очакваха и още очакват съвсем друго по радикален бюджет