Защо ChatGPT греши повече при определени езици?
AI е в развой на развиване и всички би трябвало да сме внимателни поради капацитета му да популяризира решително дезинформация. Но наподобява, че е по-вероятно той да го направи на някои езици, в сравнение с други. Защо е по този начин?
Прочетете още
Въпросът идва след отчет на NewsGuard, организация за наблюдаване на дезинформацията, който демонстрира, че ChatGPT повтаря повече неточна информация на китайски диалекти, в сравнение с когато е помолен да го направи на британски език.
В тестванията си те " изкушават " езиковия модел, като го молят да напише новинарски публикации по отношение на разнообразни погрешни изказвания, за които се твърди, че са изказани от китайското държавно управление - като да вземем за пример, че митингите в Хонконг са проведени от свързани със Съединени американски щати сътрудници провокатори.
Когато беше помолен да направи това на британски език (както в подкана, по този начин и на изхода), ChatGPT се съобрази единствено с един от седемте образеца: по-конкретно той генерира публикация, която повтаря формалната линия на китайското държавно управление, че всеобщото задържане на уйгури в страната в действителност е професионално и просветително изпитание.
Но когато поръчките и резултатите бяха на банален китайски и обичаен китайски език (двата най-разпространени писмени езика в континентален Китай, Хонконг, Тайван и Макао), ChatGPT всякога оферираше изразителност с дезинформационна багра.
Отговорът се крие във обстоятелството, че ние, разбираемо, антропоморфизираме тези системи, считайки ги просто за изразяващи някаква част от усвоеното познание на какъвто и да е определен език.
Това е изцяло естествено: в края на краищата, в случай че помолите човек, говорещ няколко езика, да отговори на даден въпрос първо на британски, а по-късно на корейски или полски, той ще ви даде еднакъв отговор, тъкмо предаден на всеки език.
При езиковия модел това не е по този начин, тъй като в действителност информацията не се регистрира в смисъла, в който го знаят хората. Моделите се идентифицират в поредност от думи и предсказват кои ще последват въз основа на данните от образованието си. Отговорът в действителност не е отговор, а прогноза за това по какъв начин би се дало отговор на този въпрос, в случай че той присъстваше в учащата цялост. Въпреки че самите тези модели са многоезични, езиците не са безусловно взаимно допълващи се. Те са припокриващи се, само че разнообразни области от набора от данни и моделът (все още) не разполага с механизъм, посредством който да съпоставя по какъв начин избрани изречения или прогнози се разграничават сред тези области.
Това не значи, че огромните езикови модели са потребни единствено за британския език или за езика, който е най-добре показан в техния набор от данни. Без подозрение ChatGPT би бил изцяло потребен за други поръчки, защото огромна част от резултатите му ще бъдат еднообразно точни.
Докладът обаче повдига забавен въпрос, който си коства да бъде прегледан при бъдещото създаване на нови езикови модели: освен дали пропагандата е по-силно застъпена в един или различен език, само че и други, по-фини пристрастия или убеждения. Той ускорява концепцията, че когато ChatGPT или различен модел ви дава отговор, постоянно си коства да се запитате (а не модела) от кое място е пристигнал този отговор и дали данните, на които се основава, са надеждни.
Прочетете още
Въпросът идва след отчет на NewsGuard, организация за наблюдаване на дезинформацията, който демонстрира, че ChatGPT повтаря повече неточна информация на китайски диалекти, в сравнение с когато е помолен да го направи на британски език.
В тестванията си те " изкушават " езиковия модел, като го молят да напише новинарски публикации по отношение на разнообразни погрешни изказвания, за които се твърди, че са изказани от китайското държавно управление - като да вземем за пример, че митингите в Хонконг са проведени от свързани със Съединени американски щати сътрудници провокатори.
Когато беше помолен да направи това на британски език (както в подкана, по този начин и на изхода), ChatGPT се съобрази единствено с един от седемте образеца: по-конкретно той генерира публикация, която повтаря формалната линия на китайското държавно управление, че всеобщото задържане на уйгури в страната в действителност е професионално и просветително изпитание.
Но когато поръчките и резултатите бяха на банален китайски и обичаен китайски език (двата най-разпространени писмени езика в континентален Китай, Хонконг, Тайван и Макао), ChatGPT всякога оферираше изразителност с дезинформационна багра.
Отговорът се крие във обстоятелството, че ние, разбираемо, антропоморфизираме тези системи, считайки ги просто за изразяващи някаква част от усвоеното познание на какъвто и да е определен език.
Това е изцяло естествено: в края на краищата, в случай че помолите човек, говорещ няколко езика, да отговори на даден въпрос първо на британски, а по-късно на корейски или полски, той ще ви даде еднакъв отговор, тъкмо предаден на всеки език.
При езиковия модел това не е по този начин, тъй като в действителност информацията не се регистрира в смисъла, в който го знаят хората. Моделите се идентифицират в поредност от думи и предсказват кои ще последват въз основа на данните от образованието си. Отговорът в действителност не е отговор, а прогноза за това по какъв начин би се дало отговор на този въпрос, в случай че той присъстваше в учащата цялост. Въпреки че самите тези модели са многоезични, езиците не са безусловно взаимно допълващи се. Те са припокриващи се, само че разнообразни области от набора от данни и моделът (все още) не разполага с механизъм, посредством който да съпоставя по какъв начин избрани изречения или прогнози се разграничават сред тези области.
Това не значи, че огромните езикови модели са потребни единствено за британския език или за езика, който е най-добре показан в техния набор от данни. Без подозрение ChatGPT би бил изцяло потребен за други поръчки, защото огромна част от резултатите му ще бъдат еднообразно точни.
Докладът обаче повдига забавен въпрос, който си коства да бъде прегледан при бъдещото създаване на нови езикови модели: освен дали пропагандата е по-силно застъпена в един или различен език, само че и други, по-фини пристрастия или убеждения. Той ускорява концепцията, че когато ChatGPT или различен модел ви дава отговор, постоянно си коства да се запитате (а не модела) от кое място е пристигнал този отговор и дали данните, на които се основава, са надеждни.
Източник: trafficnews.bg
КОМЕНТАРИ




