Ужасяваща ефективност – ИИ не само предполага, но и ловува.

Какво се случва веднъж в минута, два пъти в момент и нито веднъж в хиляда години?

Ужасяваща успеваемост – ИИ освен допуска, само че и ловува.

Излизането на GPT-4.1 беше безшумно, само че вътре в ChatGPT тази актуализация беше много впечатляваща – изключително за тези, които се интересуват от логичност и програмиране. Новата версия на модела показва впечатляващи качества за разсъждаване и решение на задания, които изискват ясно мислене и алгоритмичен метод. Обикновено обаче OpenAI приказва за това с подобен възторг, че хората без техническо обучение се отегчават още преди втория параграф.

За да тества GPT-4.1 в деяние, екипът е решил да провежда самобитни Игри на мозъка – само че не за програмисти, а за феновете на пъзели и загадки. В теста участваха три модела: самият GPT-4.1, универсалният GPT-4o (достъпен по дифолт за всички консуматори на ChatGPT) и o3 – „ мощно усъвършенстван “ модел за решение на комплицирани задания като математически уравнения и логичен вериги. Оказа се, че това е по-скоро шоу, в сравнение с строго проучване, само че сравнението се оказа любопитно.

Първата задача съставлява типичен логичен пъзел с котка: има пет следващи кутии и котката се скрива в една от тях. Всяка вечер тя прескача в идната кутия. Всяка заран един човек има право на един опит да отвори една кутия и да откри котката. Как да я улови сигурно, без значение от кое място е почнал? GPT-4.1 незабавно изготвил подреден проект, който малко по малко обяснявал по какъв начин да се стеснят опциите, до момента в който котката не бъде неизбежно хваната. Моделът даже симулирал придвижванията на котката, трансформирайки пъзела в ясна скица.

На O3 му бяха нужни 22 секунди, с цел да изготви сходно решение – също с поетапна тактика и най-много пет дни за залавянето на котката. И GPT-4o работеше сбито: обясняваше по този начин наречената „ тактика на гонене “, без да навлиза в детайлности, само че с верен извод.

Следващата задача е обвързвана с физиката, а не с кода: бъчва без похлупак се цялостни с вино. Жената твърди, че виното е повече от половината, мъжът твърди, че е по-малко. Как да разберем кой е прав, без да измерваме и изливаме? GPT-4.1 предлага класическо решение – наклонете бъчвата по този начин, че виното да допре ръба, и вижте дали можете да видите дъното. Ако го виждате, значи виното е по-малко от половината, в случай че не – повече. Обяснението лишава единствено няколко параграфа.

О3 го направи още по-кратко – безусловно в два параграфа, като че ли бързаше да завърши. GPT-4o направи нещо приблизително: първо даде малко решение, а по-късно разказа физиката на протичащото се.

Последната мистерия прерасна от логичност в игра на думи: „ Какво се случва един път в минута, два пъти в един миг и в никакъв случай за хиляда години? “ (What occurs once in a minute, twice in a moment, and never in a thousand years?) Отговорът беше буквата М. GPT-4.1 още веднъж направи къс, само че явен анализ, като се спираше на всяка дума. O3 също отговори малко, без повече детайлности. GPT-4o добави капка лиризъм, като сподели: „ Трикът е в дословния, а не във времевия смисъл. “ Идеята е, че в това задание буквата М в едната сума се среща един път, а във втора дума – два пъти. Адмирации за ИИ.

След всички тези интелектуални извършения с котки, вино и писменост заключението е просто: и трите модела са положителни в логическите задания. Разликата е в метода на показване. GPT-4.1 изяснява малко по-подробно, o3 – работи точка по точка, GPT-4o – се пробва да бъде по-разбираем и човешки.

Ако би трябвало да решите логическа задача, всеки от тези модели ще се оправи. И макар че GPT-4.1 е обективно по-силен в логиката и кода, евентуално даже няма да забележите разликата. И това е може би най-парадоксалната част от цялата история.