30-те най-добри математици в света едва успяха да надделеят над изкуствения интелект на OpenAI
В средата на май тридесет известни математици се събраха в Бъркли, Калифорния, с цел да тестват математическите качества на чатбота o4-mini на OpenAI. В продължение на два дни те го засипваха с въпроси на равнище професор и откриха, че изкуственият разсъдък е кадърен да взема решение извънредно комплицирани математически задания и към този момент превъзхожда множеството от най-хубавите дипломанти в света.
Големите езикови модели (LLM) са в положение да предвиждат идната дума в обещано изречение. Въпреки това, спрямо доста други LLM, o4-mini и неговите аналози като Gemini 2.5 Flash се образоват върху профилирани набори от данни с по-сериозно укрепване. Този метод основава чатбот, който може да навлиза доста по-дълбоко в комплицираните математически проблеми, в сравнение с обичайните LLM, написа Scientific American.
За да мери напредъка на o4-mini, OpenAI разпореди на организацията от трета страна Epoch AI да събере 300 математически задания, чиито решения не са били оповестени до момента. Съвременните LLM към този момент са способни да дават отговор вярно на комплицирани математически въпроси, само че въпросите, подбрани от Epoch AI, се оказаха сложни за актуалните LLM – нито един от тях не реши повече от 6 задания, т.е. не съумя да премине границата от 2%. Но o4-mini сподели радикално друг резултат.
Изследването, което Epoch AI предложения Елиът Глейзър да управлява, стартира през септември 2024 година 300-те математически задания за o4-mini бяха разграничени на три равнища на компликация – бакалавърско, магистърско и изследователско равнище. До април 2025 година Глейзър откри, че o4-mini може да реши към 20% от дилемите. Четвъртото равнище се състои от задания, които са сложни даже за професорите по математика. Учените, които участваха в проучването, трябваше да подпишат съглашение за неразкриване на информацията, с цел да се отстрани опцията за инцидентно приключване на информация и прибързано запознаване на модела на ИИ с тези задания.
На 17-18 май участниците в опита се събраха в Бъркли, с цел да ревизират по какъв начин o4-mini ще отговори на последния набор от въпроси. Тридесетте учени бяха разграничени на групи от по шест души. В продължение на два дни те се състезаваха между тях, като измисляха задания, които биха могли да решат, само че които биха объркали чатбота.
Въпреки че учените в последна сметка съумяха да дефинират 10 въпроса, които затрудниха чатбота, откривателите бяха изумени от това какъв брой доста е напреднал изкуственият разсъдък за една година. Хе Янхуи, математик от Лондонския институт по математически науки и един от участниците в плана, съпоставя равнището на o4-mini с равнището на най-малко един доста предвидлив докторант. А във връзка с бързината на намиране на решенията, той надалеч надминава професионалния математик – там, където на един човешки специалист му трябват седмици или месеци, с цел да откри решението, на модела му трябват единствено няколко минути.
Напредъкът на изкуствения разсъдък провокира освен удивление от технологията, само че и безпокойствие. Участниците в изследването показаха угриженост, че потребителите ще стартират да се доверяват прекомерно доста на резултатите от o4-mini.
„ Има доказателство посредством индукция, доказателство посредством опълчване, а по-късно има и доказателство посредством заплашване “, сподели той. – Ако кажете нещо задоволително авторитетно, хората просто се опасяват да му опонират. Мисля, че o4-mini е овладял доказването посредством сплашване; той споделя всичко с огромна убеденост. “
Към края на проучването участниците започнаха да разсъждават за това по какъв начин може да наподобява бъдещето на математиката. Дискусиите се насочиха към „ петото равнище “ – въпроси, които даже най-хубавите математици не могат да решат. Ако изкуственият разсъдък доближи това равнище, ролята на математиците фрапантно ще се промени. В този подтекст ключът към запазването на математиката за бъдещите генерации ще бъде развиването на творчеството във висшето обучение.




