В последния ден на акцията Shipmas, в рамките на която

OpenAI представи o3 – най-умният AI в света, който е с 88% по-бърз от хората

В последния ден на акцията Shipmas, в границите на която беше дадено в продължение на 12 дни да се демонстрира, анонсира и приказва за новите ИИ-функции, OpenAI разкри два огромни езикови модела от последващо потомство o3 и o3-mini, които имат способността да разсъждават.

OpenAI отбелязва, че през днешния ден не става сума за стартиране на нови езикови модели. Компанията изясни, че образованието на тези невронни мрежи към момента не е приключено и крайният резултат може да се разграничава от показания досега. В същото време OpenAI приема оферти от изследователската общественост за тестване на тези модели, преди да ги пусне за общодостъпно прилагане. Компанията към момента не е решила по кое време ще стане това.

През септември тази година OpenAI пусна мислещия AI-модел o1 (с кодово име Strawberry). Решението новите модели да се назовават o3 се дължи на обстоятелството, че по този метод компанията е решила да избегне комплициране (или спорове на търговски марки) с английската телекомуникационна компания O2.

Терминът „ разумен AI модел “ в последно време стана доста съвременен в развиването на технологиите за изкуствен интелект и машинното образование. Но всъщност това значи единствено, че с цел да реши даден въпрос, машината разрушава инструкциите на по-малки задания. Това в последна сметка ви разрешава да постигнете по-точни резултати. „ Разсъждаващите “ AI модели постоянно демонстрират целия развой на взимане на решения и по какъв начин AI е стигнал до избран отговор, вместо просто да дават финален отговор без пояснение.

OpenAI твърди, че неговият нов модел o3 надвишава предходните върхове за продуктивност на всички места. В теста ARC-AGI, който е особено планиран за сравняване на опциите на изкуствения разсъдък с човешкия разсъдък, моделът o3 превъзхожда o1 с повече от три пъти, демонстрирайки резултат от 88%.

Новият модел също по този начин е с 22,8% по-бърз от своя предходник в писането на код (тест SWE-Bench Verified) и даже надмина водещия академик на OpenAI в спортното програмиране.

Моделът o3 съвсем се оправя с един от най-трудните математически проби — AIME 2024, пропускайки единствено един въпрос, а също по този начин означи 87,7% в бенчмарка GPQA Diamond — доста по-висок от всеки резултат на човешки специалист.

В най-трудните математически и логичен проби, които нормално спъват всеки различен AI, o3 взема решение 25,2 % от дилемите — резултатите на други модели не надвишават два %.

Значително преимущество на o3, сходно на o1, е способността на моделите да „ разсъждават “ и дейно да ревизират личните си обстоятелства, с цел да избегнат разнообразни типове неточности и халюцинации. Въпреки това разработчиците от OpenAI обявиха, че процесът на инспекция на обстоятелствата преди издаване на отговор води до леко закъснение — от няколко секунди до няколко минути (в взаимозависимост от сложността на въпроса). Освен това забавянето се дължи на модела, определящ дали поръчката на потребителя дава отговор на политиката за сигурност на OpenAI. Компанията твърди, че при тестване на новия логаритъм за сигурност на o1, той е следвал разпоредбите за сигурност доста по-добре от предходните модели, в това число и GPT-4.

И въпреки всичко, както означават публицистите от TechCrunch, главният минус на „ разсъждаващите “ модели е, че изискват доста повече изчислителна мощ за работата си, тъй че в последна сметка потреблението им е доста по-скъпо от „ нормалните “ решения.