Колкото по-умни, толкова по-скъпи: Тестването на reasoning AI модели вече струва цяло състояние
Ето ви един абсурд: Колкото по-„ умни “ стават AI моделите, толкоз по-скъпо ни излиза да разберем дали в действителност са толкоз умни.
OpenAI, Anthropic и други огромни лаборатории настояват, че новото потомство от така наречен „ reasoning модели “ – такива, които разсъждават малко по малко – са доста по-добри в някои съответни области като физика, математика и логическо мислене, написа TechCrunch.
Само че, естествено… има един проблем: Почти никой отвън тези лаборатории не може да си разреши да ревизира до каква степен това е по този начин.
Според разбор на самостоятелната платформа Artificial Analysis, единствено тестването на модела o1 на OpenAI върху седем известни AI бенчмарка коства тъкмо $2767,05. За съпоставяне, разбор на по-обикновения GPT-4o би коствал едвам $108,85.
Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, до момента в който по-леката версия на OpenAI o3-mini-high излиза $344,59.
И това не е индивидуален случай. Artificial Analysis към този момент е похарчила над $5200, с цел да тества едвам дузина reasoning модела – съвсем два пъти повече от бюджета за разбор на над 80 модела без reasoning (около $2400).
Защо излиза толкоз скъпо?
Въпросът не е единствено в маркетинга, а и в математическите калкулации. Reasoning моделите генерират голям размер от текст, който се мери с така наречен токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic ” се брои като три: “fan ”, “tas ”, “tic ”). Колкото повече токени, толкоз по-висока излиза сметката най-после.
Пример: при тестванията на o1, OpenAI моделът генерира над 44 милиона токена – съвсем осем пъти повече от GPT-4o. А защото множеството AI компании таксуват точно на токен, цената пораства експоненциално с „ интелигентността “ на модела.
„ Навлизаме в свят, в който лабораторията регистрира X% резултат на бенчмарк, за който е изхарчила Y количество запаси – само че академичната общественост не разполага даже с част от Y “, написа Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.
Той заплаща сумата от $580, с цел да тества Claude 3.7 Sonnet на към 3700 подкани. Само едно прекосяване през цялостния тест MMLU Pro би му коствало над $1800.
Artificial Analysis декларира, че ще усили бюджета си за тестване, защото от ден на ден компании показват свои reasoning модели.
Според Жан-Станислас Дьонен от Epoch AI, актуалните проби стават доста по-сложни.
„ Броят въпроси понижава, само че дилемите са действителни – писане на код, потребление на компютър, даже търсене в интернет “, споделя той пред TechCrunch. Резултатът е, че моделите генерират големи количества токени, а разноските за тестване излизат някъде в стратосферата.
Най-мощните AI системи към този момент костват цяло положение, и то единствено с цел да бъдат пуснати на пазара.
Когато Anthropic пуска Claude 3 Opus през май 2024 година, цената е $75 на милион изходни токени. OpenAI отвърна с GPT-4.5 и o1-pro – $150 и $600 на милион токени надлежно.
Според Дьонен: „ Да, цената за постигане на несъмнено равнище на продуктивност е спаднала през годините. Но в случай че искаш да тестваш най-хубавото в даден миг, към момента плащаш повече. “
AI лабораториите постоянно дават достъп до моделите си за проби гратис или на по-ниска цена. Но това крие следващия риск: въздействие върху обективността.
„ Дори и да няма директна операция, самият факт, че лабораторията взе участие, към този момент подкопава доверието в резултатите “, настояват специалисти.
Рос Тейлър от General Reasoning непосредствено задава въпроса:
„ Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – просвета ли е това въобще? Била ли е просвета в миналото? “
OpenAI, Anthropic и други огромни лаборатории настояват, че новото потомство от така наречен „ reasoning модели “ – такива, които разсъждават малко по малко – са доста по-добри в някои съответни области като физика, математика и логическо мислене, написа TechCrunch.
Само че, естествено… има един проблем: Почти никой отвън тези лаборатории не може да си разреши да ревизира до каква степен това е по този начин.
Според разбор на самостоятелната платформа Artificial Analysis, единствено тестването на модела o1 на OpenAI върху седем известни AI бенчмарка коства тъкмо $2767,05. За съпоставяне, разбор на по-обикновения GPT-4o би коствал едвам $108,85.
Ако вземем и новия модел на Anthropic – Claude 3.7 Sonnet, цената за неговото тестване е $1485,35, до момента в който по-леката версия на OpenAI o3-mini-high излиза $344,59.
И това не е индивидуален случай. Artificial Analysis към този момент е похарчила над $5200, с цел да тества едвам дузина reasoning модела – съвсем два пъти повече от бюджета за разбор на над 80 модела без reasoning (около $2400).
Защо излиза толкоз скъпо?
Въпросът не е единствено в маркетинга, а и в математическите калкулации. Reasoning моделите генерират голям размер от текст, който се мери с така наречен токени. Един токен може да е дума, сричка или част от дума (напр. “fantastic ” се брои като три: “fan ”, “tas ”, “tic ”). Колкото повече токени, толкоз по-висока излиза сметката най-после.
Пример: при тестванията на o1, OpenAI моделът генерира над 44 милиона токена – съвсем осем пъти повече от GPT-4o. А защото множеството AI компании таксуват точно на токен, цената пораства експоненциално с „ интелигентността “ на модела.
„ Навлизаме в свят, в който лабораторията регистрира X% резултат на бенчмарк, за който е изхарчила Y количество запаси – само че академичната общественост не разполага даже с част от Y “, написа Рос Тейлър, CEO на AI компанията General Reasoning, в пост в X.
Той заплаща сумата от $580, с цел да тества Claude 3.7 Sonnet на към 3700 подкани. Само едно прекосяване през цялостния тест MMLU Pro би му коствало над $1800.
Artificial Analysis декларира, че ще усили бюджета си за тестване, защото от ден на ден компании показват свои reasoning модели.
Според Жан-Станислас Дьонен от Epoch AI, актуалните проби стават доста по-сложни.
„ Броят въпроси понижава, само че дилемите са действителни – писане на код, потребление на компютър, даже търсене в интернет “, споделя той пред TechCrunch. Резултатът е, че моделите генерират големи количества токени, а разноските за тестване излизат някъде в стратосферата.
Най-мощните AI системи към този момент костват цяло положение, и то единствено с цел да бъдат пуснати на пазара.
Когато Anthropic пуска Claude 3 Opus през май 2024 година, цената е $75 на милион изходни токени. OpenAI отвърна с GPT-4.5 и o1-pro – $150 и $600 на милион токени надлежно.
Според Дьонен: „ Да, цената за постигане на несъмнено равнище на продуктивност е спаднала през годините. Но в случай че искаш да тестваш най-хубавото в даден миг, към момента плащаш повече. “
AI лабораториите постоянно дават достъп до моделите си за проби гратис или на по-ниска цена. Но това крие следващия риск: въздействие върху обективността.
„ Дори и да няма директна операция, самият факт, че лабораторията взе участие, към този момент подкопава доверието в резултатите “, настояват специалисти.
Рос Тейлър от General Reasoning непосредствено задава въпроса:
„ Ако публикуваш резултат, който никой не може да възпроизведе със същия модел – просвета ли е това въобще? Била ли е просвета в миналото? “
Източник: profit.bg
КОМЕНТАРИ




