Ето ви един парадокс: Колкото по-умни“ стават AI моделите, толкова

Колкото по-умни, толкова по-скъпи: Тестването на reasoning AI модели вече струва цяло състояние

Ето ви един абсурд: Колкото по-„ умни “ стават AI моделите, толкоз по-скъпо ни излиза да разберем дали в действителност са толкоз умни.

OpenAI, Anthropic и други огромни лаборатории настояват, че новото потомство от така наречен „ reasoning модели “ – такива, които разсъждават малко по малко – са доста по-добри в някои съответни области като физика, математика и логическо мислене, написа TechCrunch.

Само че, естествено… има един проблем: Почти никой отвън тези лаборатории не може да си разреши да ревизира до каква степен това е по този начин.

Според разбор на самостоятелната платформа Artificial Analysis, единствено тестването на модела o1 на OpenAI върху седем известни AI бенчмарка коства тъкмо $2767,05. За съпоставяне, разбор на по-обикновения GPT-4o би коствал едвам $108,85.

Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, до момента в който по-леката версия на OpenAI o3-mini-high излиза $344,59.

И това не е индивидуален случай. Artificial Analysis към този момент е похарчила над $5200, с цел да тества едвам дузина reasoning модела – съвсем два пъти повече от бюджета за разбор на над 80 модела без reasoning (около $2400).
Защо излиза толкоз скъпо?
Въпросът не е единствено в маркетинга, а и в математическите калкулации. Reasoning моделите генерират голям размер от текст, който се мери с така наречен токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic ” се брои като три: “fan ”, “tas ”, “tic ”). Колкото повече токени, толкоз по-висока излиза сметката най-после.

Пример: при тестванията на o1, OpenAI моделът генерира над 44 милиона токена – съвсем осем пъти повече от GPT-4o. А защото множеството AI компании таксуват точно на токен, цената пораства експоненциално с „ интелигентността “ на модела.

„ Навлизаме в свят, в който лабораторията регистрира X% резултат на бенчмарк, за който е изхарчила Y количество запаси – само че академичната общественост не разполага даже с част от Y “, написа Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.

Той заплаща сумата от $580, с цел да тества Claude 3.7 Sonnet на към 3700 подкани. Само едно прекосяване през цялостния тест MMLU Pro би му коствало над $1800.

Artificial Analysis декларира, че ще усили бюджета си за тестване, защото от ден на ден компании показват свои reasoning модели.

Според Жан-Станислас Дьонен от Epoch AI, актуалните проби стават доста по-сложни.

„ Броят въпроси понижава, само че дилемите са действителни – писане на код, потребление на компютър, даже търсене в интернет “, споделя той пред TechCrunch. Резултатът е, че моделите генерират големи количества токени, а разноските за тестване излизат някъде в стратосферата.

Най-мощните AI системи към този момент костват цяло положение, и то единствено с цел да бъдат пуснати на пазара.

Когато Anthropic пуска Claude 3 Opus през май 2024 година, цената е $75 на милион изходни токени. OpenAI отвърна с GPT-4.5 и o1-pro – $150 и $600 на милион токени надлежно.

Според Дьонен: „ Да, цената за постигане на несъмнено равнище на продуктивност е спаднала през годините. Но в случай че искаш да тестваш най-хубавото в даден миг, към момента плащаш повече. “

AI лабораториите постоянно дават достъп до моделите си за проби гратис или на по-ниска цена. Но това крие следващия риск: въздействие върху обективността.

„ Дори и да няма директна операция, самият факт, че лабораторията взе участие, към този момент подкопава доверието в резултатите “, настояват специалисти.

Рос Тейлър от General Reasoning непосредствено задава въпроса:

„ Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – просвета ли е това въобще? Била ли е просвета в миналото? “

Колкото по-умни, толкова по-скъпи: Тестването на reasoning AI модели вече струва цяло състояние

колкото умни

умни толкова

толкова скъпи

скъпи тестването

тестването reasoning

reasoning модели

модели вече

вече струва

колкото

умни

толкова

скъпи

тестването

reasoning

модели

вече

струва

цяло

състояние