Анонимният чатбот, който озадачи и разочарова експертите, е най-новият ИИ

Още преди да бъде официално представен GPT-4o счупи почти всички рекорди в класацията на chatbot под тайно име

Анонимният чатбот, който озадачи и разочарова специалистите, е най-новият ИИ модел на OpenAI.

В понеделник водещият експерт на OpenAI Уилям Федъс удостовери в обществената мрежа X, че мистериозният чат-бот с изкуствен интелект, прочут като „ gpt-chatbot “, който е бил тестван в Chatbot Arena на LMSYS и е изнервил специалистите, в действителност е неотдавна оповестеният модел на OpenAI с изкуствен интелект GPT-4o. Той също по този начин разкри, че GPT-4o е оглавил класацията на Chatbot Arena, постигайки най-високия документиран резултат до момента.

„ GPT-4o е нашият нов съвременен и авангарден модел. Тествахме версия в LMSys Arena под името im-also-a-good-gpt2-chatbot “, написа Федус в Twitter (сега Х).

Chatbot Arena е уеб уебсайт, в който посетителите беседват с два случайни езикови модела с изкуствен интелект паралелно един до различен, без да знаят кой е моделът, след което избират кой модел дава най-хубав отговор. Това е съвършен образец за основан на относителен разбор на ИИ, както го назовава откривателят на ИИ Саймън Уилисън.

Моделите gpt2-chatbot се появиха през април и изданието ArsTechnica писа за това по какъв начин неналичието на бистрота на процеса на тестване на изкуствен интелект в LMSYS разочарова експертите по изкуствен интелект като Уилисън.

„ Цялата обстановка е толкоз вбесяващо представителна за проучванията на LLM “, сподели той тогава пред Ars. „ Напълно необявено, непрозрачно стартиране и в този момент целият интернет редом организира ненаучни „ инспекции на опциите “.

В Arena компанията OpenAI тества няколко версии на GPT-4o, като моделът първо се появява като гореспоменатия „ gpt2-chatbot “, по-късно като „ im-a-good-gpt2-chatbot “ и най-после като „ im-also-a-good-gpt2-chatbot “, който основният изпълнителен шеф на OpenAI Сам Алтман загатва в мистериозен туит на 5-ти май.

След представянето на GPT-4o по-рано през днешния ден многочислени източници разкриха, че GPT-4o е оглавил вътрешните ранглисти на LMSYS със забележителна разлика, надминавайки предходните топ модели Claude 3 Opus и GPT-4 Turbo.

„ gpt2-chatbots преди малко се изкачи на върха, надминавайки всички модели със забележителна разлика (~50 Elo). Той се трансформира в най-силния модел, който в миналото е бил на Арената “, написа в своя профил в Х уеб страницата lmsys.org, до момента в който споделяше графиката. „ Това е вътрешен скрийншот “, написа още там. „ Неговата обществена версия „ gpt-4o “ към този момент е в Арената (The Arena) и скоро ще се появи в обществената ранглиста! “

Към момента на писане на тази публикация im-also-a-good-gpt2-chatbot има 1309 Elo против 1253 на GPT-4-Turbo-2023-04-09 и 1246 на Claude 3 Opus. Claude 3 и GPT-4 Turbo си оспорваха местата в класациите за известно време, преди да се появят трите gpt2-chatbots и да раздрусат обстановката радикално.

Явно следва същинска гражданска война в областта на изкуствения разсъдък. Можем да чакаме огромни промени в осведомителните технологии, а и надалеч освен там.