Почти две години след като главният изпълнителен директор на Microsoft

...
Почти две години след като главният изпълнителен директор на Microsoft
Коментари Харесай

Агентният AI напредва бързо, но реалната експертна работа остава извън обсега му

Почти две години откакто основният изпълнителен шеф на Microsoft Сатя Надела предвижда, че изкуственият разсъдък ще измести огромна част от висококвалифицирания интелектуален труд – работата на адвокати, капиталови банкери, счетоводители, IT експерти и други – действителността наподобява по-скоро разочароваща.

Въпреки бурния прогрес на фундаменталните модели, множеството офисни и експертни специалности остават значително незасегнати. Моделите към този момент могат да вършат задълбочени изследвания и да възнамеряват комплицирани задания, само че действителната професионална работа към момента не им се отдава изключително. Това е един от огромните парадокси на изкуствения разсъдък – и ново проучване на Mercor, представено от TechCrunch, дава първите по-ясни отговори.
Какъв е новият тест за действителната работна среда?
Mercor – компания, профилирана в образование с действителни професионални данни – разгласява нов тест с името APEX-Agents, който мери по какъв начин водещите AI модели се оправят с действителни задания от консултантската процедура, капиталовото банкиране и правото.

Резултатите са показателни, тъй като всички огромни лаборатории за изкуствен интелект на процедура се „ провалят “. Дори най-хубавите модели съумяват да отговорят вярно на по-малко от една четвърт от въпросите, които са им заложени. В множеството случаи отговорите са неверни или изцяло липсват.

Според изпълнителния шеф на Mercor Брендън Фуди най-голямото затруднение е способността за работа с информация от голям брой източници – нещо, което стои в основата на човешката експертна активност.

„ Реалната професионална работа не се случва с един документ и цялостен подтекст на едно място. Тя минава през Slack, Гугъл Drive и десетки други принадлежности “, споделя Фуди пред TechCrunch. За доста агентни AI модели този вид многополюсно размишление към момента е непоследователно.
Колко комплицирани са дилемите?
Сценариите в APEX-Agents са предоставени от действителни експерти в мрежата на Mercor, които формулират въпросите и дефинират по какъв начин би изглеждал „ сполучливият “ отговор.

Пример от правния модул пита дали съответен трансфер на логове с персонални данни от Европейски Съюз към Съединени американски щати може да се смята за позволен по член 49 от европейското законодателство – въпрос, който изисква по едно и също време познаване на вътрешните политики на компанията и комплицирани регулаторни рамки. Това е типична задача, която затруднява даже опитни адвокати.

Най-добър резултат все още е реализиран от Гугъл с Gemini 3 Flash – 24% акуратност при първи опит. Следват OpenAI с GPT-5.2 (23%), а по-надолу са Opus 4.5, Gemini 3 Pro и GPT-5 – към 18%.

За съпоставяне, по-ранният тест GDPval на OpenAI мери по-общи професионални познания, до момента в който APEX-Agents тества способността за продължителна, дълбока работа в съответни високостойностни специалности – доста по-близо до действителния въпрос за автоматизацията.
Стажант, който се учи бързо
Въпреки че резултатите наподобяват скромни, Фуди остава оптимистичен. „ В момента AI е по-скоро като стажант, който стига до верния отговор в към 25% от случаите. Миналата година беше 5–10%. Такова движение на усъвършенстване може да има доста бърз стопански резултат “, изяснява той.

С публикуването на APEX-Agents предизвикването към този момент е отворено – и в случай че историята на AI ни е научила на нещо, то е, че днешните „ провали “ постоянно са триумфите на утрешния ден. Да, AI сигурно напредва, само че замяната на адвокати, банкери и консултанти няма да стане с един ход.

Реалната работа е безредна, комплицирана и разпределена сред разнообразни принадлежности и контексти – и точно там машините към момента изостават. Поне все още.
Източник: profit.bg


СПОДЕЛИ СТАТИЯТА


КОМЕНТАРИ
НАПИШИ КОМЕНТАР