Повече от половината от отговорите на ChatGPT на въпроси, свързани

...
Повече от половината от отговорите на ChatGPT на въпроси, свързани
Коментари Харесай

ChatGPT дава над 50% неверни отговори за програмиране


Повече от половината от отговорите на ChatGPT на въпроси, свързани с програмирането, са неправилни (снимка: CC0 Public Domain)

Шумът към изкуствения разсъдък не подмина и програмистите – доста от тях избират да се извърнат за съвет към ChatGPT, в сравнение с към профилирани запаси. Това събитие не е изненадващо, защото способността на AI да дава незабавни отговори е привлекателна за ИТ експертите, които търсят бързи решения или уточнения. Оказа се обаче, че е прекомерно рано да се разчита на AI технологията – тя постоянно се проваля.

Изследователи от университета Purdue показаха резултатите от изследване, съгласно които ChatGPT дава отговор погрешно на повече от половината въпроси, свързани с програмирането. В същото време чатботът дава отговор толкоз решително, че е съумял да убеди в своята справедливост повече от една трета от участниците в проучването 

На 16 октомври 2023 година управлението на услугата за помощ за ИТ експерти и разработчици Stack Overflow разгласи уволнението на повече от 100 чиновници, или 28% от сегашния си личен състав. Според известия в медиите, повода за съкращенията са разнообразни AI услуги, чиито чатботове навлязоха във всички сфери на софтуерната промишленост, в това число програмирането.

Това е съществено предизвикателство за помощния конгрес за програмиране, защото доста разработчици към този момент са минали към системи за подкрепяне с AI шифроване и самите принадлежности, които вършат това, са интегрирани в софтуерните артикули, употребявани от програмистите в ежедневните им действия.

Какво демонстрират изследванията

Екип от експерти проучва отговорите на ChatGPT на 517 въпроса на Stack Overflow, с цел да оцени точността, последователността, пълнотата и стегнатостта им. Американски учени също организираха лингвистичен и прочувствен разбор на отговорите и интервюираха дузина доброволци за резултатите, получени благодарение на AI модела. Според данните, 52% от отговорите на ChatGPT са неправилни, а 77% са многословни.

Отговорите на ChatGPT обаче са желани в 39,34% от случаите, заради тяхната цялост и добре дефиниран жанр на писане. В същото време от желаните отговори на ChatGPT за ИТ експерти към 77% са неправилни. Компанията разработчик OpenAI призна в формалния си уеб страница, че нейният програмен продукт може да дава неточна информация за хора, места или обстоятелства. В изследването 60% от респондентите намират отговорите, написани от хора, за по-правилни, къси и потребни.
още по темата
Според откривателите, единствено когато грешката в отговора на ChatGPT е явна, потребителите могат да я разпознават. Когато грешката не може да се ревизира или изисква външна IDE или документи, потребителите постоянно не съумяват да разпознават неправилността или подценяват степента на грешката в отговора. 

Дори когато отговорът съдържа ясна неточност, двама от 12 участници в изследването въпреки всичко означават отговора като позитивен. Учените отдават това на приятния, влиятелен жанр на самия ChatGPT. Учтивият език на чатбота, артикулираните отговори в стила на учебник и пълнотата на отговорите вършат изцяло неверните отговори да наподобяват верни.

Например, в случай че потребителите преброят крави и първо слагат две крави в кошара, а след известно време още две, какъв брой ще станат сумарно? Математиката учи, че се четири. Но ChatGPT може да направи противоположното и да отговори с пет! Чатботът може също да изясни отговора си, като каже, че когато потребителят вкара две спомагателни крави в кошарата, една от тези, които към този момент са в кошарата, е родила теле? Тогава това прави пет, нали? Това също е истина.

Студентите в Stack Overflow даже са докладвали неточности при решение на елементарни задания с графики. ChatGPT бърка числовите стойности при изобразяване на координатни системи или запис на данни от файл във вектор, употребявайки несъществуващи данни. Учениците не схващат получените резултати или въобще не схващат защо става дума, за което получават съответни оценки от преподавателите.

Илюзия за истина

Съавторът на изследването Самия Кабир споделя пред The ​​Register, че има няколко аргументи, които участниците избират неправилни и многословни отговори на ChatGPT пред отговорите на Stack Overflow. Една от главните аргументи е какъв брой подробни са отговорите на ChatGPT. В доста случаи участниците не обръщат внимание на дължината, в случай че получат потребна информация от подробни и разширени отговори. Другите две аргументи са позитивното въодушевление и вежливост на отговорите от чатбота.

Освен това участниците не обръщат внимание на неправилността, когато сметнат отговора на ChatGPT за логичен. Начинът, по който чатботът предава решително проницателна информация (дори и да е невярна), печели доверието на потребителите, което ги кара да избират неверния отговор.

Проучването измежду потребителите има за цел да добави изчерпателен ръчен и широкомащабен лингвистичен разбор на отговорите на ChatGPT, разяснява Кабир. Изследователите канят и други анализатори да възпроизведат резултатите от този план. От май 2024 година наборът от данни е обществено наличен за улеснение на бъдещи планове. Авторите означават, че отговорите на ChatGPT съдържат повече „ атрибути на задвижване ” – език, показващ достижение и триумф, само че постоянно не разказват опасности.

Наред с други резултати, създателите откриват, че ChatGPT е по-вероятно да прави концептуални неточности, в сравнение с в действителност неточности. Много отговори се оказват неправилни заради неспособността на чатбота да разбере главния подтекст на заложения въпрос.

Езиков разбор

Езиковият разбор на отговорите на ChatGPT и Stack Overflow демонстрира, че отговорите на бота са по-формални, показват повече аналитично мислене, показват повече старания за реализиране на задачите и демонстрират по-малко отрицателни страсти. И анализът на настроението демонстрира, че отговорите на ChatGPT показват по-положително въодушевление от отговорите на Stack Overflow.

Въз основа на констатациите и наблюденията, откривателите от университета Purdue заключават, че Stack Overflow би трябвало да ползва ефикасни способи за разкриване на токсичност и отрицателни настроения в мнения и отговори, с цел да усъвършенства настроението и вежливостта.

AI въздейства на трафика

Според априлски отчет от SimilarWeb, трафикът на Stack Overflow е понижен с шест % всеки месец от януари 2022 година и е намалял с 13,9% през март, което допуска, че потреблението на ChatGPT може да способства за това. Членовете на общността на Stack Exchange, мрежа от уеб сайтове за въпроси и отговори, която включва Stack Overflow, стигнаха до сходно умозаключение въз основа на спад в интензивността по нови въпроси, нови отговори, оповестени на уеб страницата и нови потребителски регистрации.

През декември 2022 година Stack Overflow краткотрайно забрани на потребителите да споделят отговори от чатбота ChatGPT, защото някои от тях бяха неправилни и модераторите не можаха бързо да ги ревизират.

Годишното изследване на разработчиците на Stack Overflow измежду 90 000 програмисти неотдавна откри, че 77% от разработчиците имат позитивни възгледи за инструментите за изкуствен интелект, само че единствено 42% се доверяват на точността на инструментите. 

OverflowAI е създаден с мисъл за общността и с фокус върху точността на генерираните от AI данни и наличие. Инструментът предлага на потребителите опция да ревизират, приписват и удостоверяват точността и надеждността на данните в общността на Stack Overflow и нейните над 65 милиона въпроси и отговори.
Източник: technews.bg

СПОДЕЛИ СТАТИЯТА


Промоции

КОМЕНТАРИ
НАПИШИ КОМЕНТАР