Тричленен изследователски екип, състоящ се от Линджао Чен, Матей Захария

ChatGPT продължава да затъпява – математическите му отговори са се влошили с 95,2%

Тричленен проучвателен екип, състоящ се от Линджао Чен, Матей Захария и Джеймс Зоу, реши да ревизира по какъв начин се трансформират продуктивността и точността на известните сега чатботове GPT-3.5 и GPT-4.

Проучването прави оценка представянето на моделите с изкуствен интелект за интервала от март до юни 2023 година в четири области: решение на математически задания, отговаряне на чувствителни/опасни въпроси, генериране на код и образно размишление. Резултатите от изследването демонстрират, че точността и продуктивността на гореспоменатите чатботове се трансформират с течение на времето. И то не към възстановяване.

Така да вземем за пример през месец март 2023 година чатботът CPT-4 е решил математическите задания с акуратност от 97,6%. През юни тази цифра пагубно се срутва до 2,4%. От друга страна, точността на GPT-3.5 през юни се е нараснала спрямо резултатите му през март – от 7,4% до 86,8%.

През месец юни GPT-4 е по-малко податлив да дава отговор на деликатни въпроси, в сравнение с през март. През този месец има и повече неточности при генерирането на сорс код. Тази констатация е вярна и за двата AI модела. Докато през март чатботът GPT-4 се оправя с 50% от 50-те задания на LeetCode, през юни ИИ съумява да се оправи единствено с 10%.

В резултат на това създателите на изследването настояват, че уменията на чатботовете може мощно да се трансформират за относително къс интервал от време, тъй че е належащо непрекъснато наблюдаване на качеството на логаритмите за изкуствен интелект.