OpenAI представи нов тест, наречен GDPval, който измерва колко добре

ИИ издържа изпитите за икономист: GPT-5 отнема работни места на хората във всяка втора задача

OpenAI показа нов тест, наименуван GDPval, който мери какъв брой добре се оправя изкуственият разсъдък със дилемите от действителната стопанска система спрямо хората. За разлика от нормалните университетски примери, той разчита на девет съществени промишлености, които образуват по-голямата част от Брутният вътрешен продукт на Съединени американски щати: включени са опазването на здравето, финансите, производството и общественият бранш. В рамките на всеки бранш са определени 44 специалности, вариращи от компютърни програмисти и публицисти до медицински експерти и анализатори. Идеята е да се възложат на моделите същите задания, които нормално получават експертите, и по-късно специалистите да сравнят резултатите.

Задачите в GDPval-v0 са допустимо най-близки до ежедневната работа. Така да вземем за пример от капиталовите банкери беше поискано да изготвят обзор на съперниците в сегмента на доставките от последната миля, след което съпоставиха резултата с отчет, написан от изкуствен интелект. Във всеки случай участниците избраха по-добрия вид, а по-късно резултатите бяха осреднени, с цел да се образува оценка на успехите и равенствата на модела по отношение на професионалните материали.

Резултатите се оказаха поразителни. Установено бе, че разширената настройка GPT-5 с увеличена изчислителна мощ, обозначена като GPT-5-high, е равна или по-добра от отчетите на специалистите в сектора в 40,6% от случаите. За съпоставяне, мултимодалната настройка GPT-4o, пусната на пазара преди година и половина, се показа добре единствено в 13,7% от случаите. Разликата показва доста повишение способността на невронните мрежи да генерират структурирани и безапелационни документи. Anthropic Claude Opus 4.1 се показа още по-добре, постигайки 49%. От OpenAI означават, че този висок резултат може да е обвързван освен с дълбочината на разбора, само че и с образното показване – Claude има склонността да създава материали със схеми и диаграми, което покачва възприемането на готовия отчет.

В същото време OpenAI намерено приказва за слабостите на сегашния тест. В действителната работа чиновниците извършват доста повече задания, в сравнение с просто да пишат отчети. Има взаимоотношение с сътрудници, неведнъж рационализиране, инспекция на хипотези, бързо адаптиране към изменящите се условия. GDPval към момента не отразява това и компанията възнамерява да сътвори по-сложни сюжети, в които ИИ ще би трябвало да работи интерактивно с междинни стъпки и противоположна връзка.

Въпреки рестриктивните мерки, вътре в компанията се акцентира смисъла на към този момент постигнатото. Главният икономист на OpenAI Аарон Чатърджи счита, че моделите към този момент са в положение да затворят някои от рутинните задания, което разрешава на експертите да се съсредоточат върху по-сложните и значими аспекти на работата си. Ръководителят на отдела за оценки Теджал Патуордхан също отбелязва темпото на напредъка: единствено за петнадесет месеца GPT-5 съвсем утрои резултата на GPT-4o и наклонността наподобява устойчива.

Досега браншът разчиташе в огромна степен на други проби: AIME 2025 ревизира способността за решение на комплицирани математически задания, а GPQA Diamond прави оценка научните знания на следдипломно равнище. Най-добрите модели обаче към този момент са достигнали тавана си в тази област. На този декор опити като GDPval стават все по-важни, защото дават опция да се реши до каква степен изкуственият разсъдък е подготвен за на практика приложения. В същото време за окончателните изводи ще е нужна идната версия на теста, която ще вземе поради повече специалности и ще отразява самия работен развой, а освен крайния документ.

Днешните резултати не демонстрират превъзходството на машините над хората, а появяването на инструмент, който към този момент може да се впише в ежедневните процеси. Част от работата – събирането и съпоставянето на информация – може да бъде делегирана на ИИ, а хората да бъдат оставени да слагат дилемите, да ревизират обстоятелствата и да вземат окончателните решения. Тази смяна трансформира моделите не в съперници, а в асистенти, като форсира и опростява дилемите в редица области.