Най-съвременните модели на изкуствен интелект са решили само 2% от

Математици разработиха предизвикателни задачи, за да тестват мисленето на Gemini, Claude и GPT-4o – провалиха се на почти всички тестове

Най-съвременните модели на изкуствен интелект са решили единствено 2% от комплицираните математически проблеми, създадени от водещи международни математици.

Изследователският институт Epoch AI показа новия набор от проби FrontierMath, който изисква математически знания на докторско равнище. Професорите по математика, по-специално носителите на Филдсов орден, бяха включени в създаването. Решаването на такива задания може да отнеме на докторантите математици от няколко часа до дни.

Ако в предходни проби MMLUAI моделите сполучливо решаваха 98% от математическите задания на учебно и университетско равнище, то при новите задания обстановката е радикално друга.

„ Тези задания са извънредно сложни. Понастоящем могат да бъдат решени единствено благодарение на експерт в тази област или благодарение на приключил студент в сродна област, съчетано със модерни AI и други алгебрични принадлежности ” — сподели лауреатът на Филдсов орден за 2006 година Терънс Тао.

В проучването са тествани шест водещи AI-модела. Gemini 1.5 Pro (002) от Гугъл и Claude 3.5 Sonnet от Anthropic демонстрираха най-хубав резултат — 2% верни отговори. Моделите o1-preview, o1-mini и GPT-4o от OpenAI се оправиха с 1% от дилемите, а Grok-2 Beta от xAI не е решил нито една задача.

FrontierMath обгръща разнообразни области на математиката — от доктрина на числата до алгебрична геометрия. Всички тестови задания са налични на уеб страницата на Epoch AI. Разработчиците са основали неповторими задания, които не се намират в данните за образование на AI-моделите.

Изследователите означават, че даже когато моделът е дал верния отговор, това не постоянно демонстрира правилността на разсъжденията — от време на време резултатът може да бъде получен посредством елементарни симулации без надълбоко математическо схващане.