Най-новата версия на ChatGPT успешно издържа изпита по радиология, като

ChatGPT успешно взе изпита по радиология, като отговори правилно на 81% от въпросите

Най-новата версия на ChatGPT сполучливо устоя изпита по радиология, като отговори вярно на 81% от въпросите и показва по-сложно мислене спрямо GPT-3.5. Но чатботът допускаше неточности във въпроси, на които преди този момент бе дал отговор вярно, а неправилните отговори решително се представяха за верни. Това може да е подвеждащо, тъй че към момента не може изцяло да се разчита на ChatGPT. Навярно е належащо неособено огромно усъвършенствани и повече неврони, с цел да се избегне изцяло това отчасти заблуждение.

За да оценят успеваемостта на ChatGPT при отговорите на въпроси от изпита по радиология и да проучат неговите мощни и слаби страни, откривателите първо тестваха ChatGPT въз основата на GPT-3.5 – най-често употребяваната версия. Изследователите са задали 150 въпроса с избор сред няколко отговора, създадени по метод, който подхожда на стила, наличието и компликацията на изпитите на Кралския лицей на Канада и Американския съвет по радиология.

Въпросите не са включвали изображения и са били групирани по тип, с цел да се даде визия за резултатите: мислене от по-ниско равнище (запомняне, главно разбиране) и мислене от по-високо равнище (прилагане, разбор, синтез). Въпросите за мислене от по-висок порядък са в допълнение класифицирани по тип (описание на резултатите от образни проучвания, клинично лекуване, пресмятане и подредба, връзка със заболяването). Представянето на ChatGPT бе оценено както като цяло, по този начин и по вида на въпроса и на тематиката. Оценена е и увереността в отговорите

Изследователите откриха, че чатботът GPT-3.5, е дал отговор вярно на 69% от въпросите (104 от 150), което е покрай резултата от 70%, прилаган от King’s College Canada. Моделът се е справил относително добре с въпросите, изискващи мислене от по-ниско равнище (84%, 51 от 61), само че е имал усложнения с въпросите, изискващи мислене от по-високо равнище (60%, 53 от 89). Чатботът се е затруднил при описването на резултатите от визуализацията (61%, 28 от 46), изчисляването и класифицирането (25%, 2 от 8) и използването на понятия (30%, 3 от 10). Тези резултати при сложните въпроси не са изненадващи, като се има поради неналичието на авансово образование по радиология.

Но в идващото изследване новата версия GPT-4 дава отговор вярно на 81% (121 от 150) от същите въпроси, като реализира по-добри резултати от GPT-3.5 и надвишава прага за прекосяване от 70%. GPT-4 се показва доста по-добре от GPT-3.5 при въпросите, свързани с мисленето от по-висок порядък (81%). Чатботът се оправи добре с описанието на резултатите от визуализацията (85 %) и използването на понятия (90 %).

Въпреки това GPT-4 не сподели усъвършенстване при въпросите, свързани с мисленето от по-ниско равнище (80% по отношение на 84%), и отговори погрешно на 12 въпроса, на които GPT-3.5 отговори вярно, което поражда подозрения по отношение на надеждността му за събиране на информация. Опасната податливост на ChatGPT да дава неточни отговори – „ халюцинации “ – е по-слабо публикувана в GPT-4, само че към момента лимитира потреблението му, да вземем за пример в здравното обучение.