Изследователи от Калифорнийския университет в Лос Анджелис, Вашингтонския университет и

MATHVISTA: изкуственият интелект, който може да спаси света от сложните математически проблеми

Изследователи от Калифорнийския университет в Лос Анджелис, Вашингтонския университет и Microsoft показаха нов инструмент за оценка на качествата на изкуствения разсъдък (AI) за математическо мислене във образен подтекст. Това е MATHVISTA. Инструментариумът съчетава задачи от разнообразни математически и образни задания. Включва 6141 образеца от 28 мултимодални бази данни, свързани с математиката, както и три нови бази данни. Това са IQTest, FunctionQA и PaperQA. Главната специфичност на MATHVISTA е способността ѝ да прави оценка освен логическото мислене, само че и образното усещане.

За да ревизират успеваемостта на другите модели за изкуствен интелект, откривателите са тествали 12 водещи всеобщи модела. Включитено включително трите огромни езикови модела (LLM). Това са ChatGPT, GPT-4, Claude-2. Плюс двата огромни мултимодални модела (LMM) – GPT4V и Bard, както и седем отворени LMM. Тези модели са оценени посредством MATHVISTA, като са употребявани тактики за питане с верига от мисли (CoT) и с стратегия за мисли (PoT) при условия на нулево и лимитирано образование.

Резултатите демонстрират, че CoT GPT-4, най-хубавият модел, основан на текст без образни усъвършенствания, е постигнал обща акуратност от 29,2%. За съпоставяне, най-хубавият мултимодален модел на Bard реализира 34,8%, което е 58% от човешките резултати (34,8% против 60,3%). Междувременно, когато PoT GPT-4 е допълнен със сигнатури и OCR текст от Bard, той доближава 33,9%, което съвсем съответствува с резултатите на мултимодалния модел на Bard.

Анализът обаче показва минусите на модела на Bard. Това са най-вече неправилни калкулации и халюцинации, породени от образното усещане и текстовите разсъждения. Забележително е, че GPT-4V, най-новата мултимодална версия на GPT-4, реализира акуратност от 49,9%, което е с 15,1% повече от мултимодалния модел Bard. Това е първата цялостна оценка благодарение на MATHVISTA и дава скъпи на практика хрумвания за по-нататъшното възстановяване на математическото мислене в мултимодалните системи за изкуствен интелект.