Модел с цена $6 срещу суперкомпютрите: на какво ни учи експериментът S1
S1 потвърждава, че за революционни хрумвания не са нужни милиардни бюджети.
Нова научна разработка, оповестена в петък, притегли вниманието на ИИ общността не толкоз поради модела си, колкото поради демонстрацията на това какъв брой близо са огромните пробиви. Представеният в нея логаритъм не надминава напредничавите решения, само че е в положение да работи на елементарен преносим компютър. Най-важното е, че той разкрива механизмите на изкуствения разсъдък, а както се оказа, те не са чак толкоз комплицирани.
Увеличаване на времето за мислене: елементарен, само че мощен трик
OpenAI са първите, които разказват мащабируемостта на моделите, когато се усилва времето за мислене преди отговора. Въпросът по какъв начин тъкмо да накараме ИИ да „ мисли “ по-дълго обаче остана без детайлности. В опита S1 за първи път се дава съответно пояснение.
Моделът употребява специфични тагове, до момента в който работи, като да вземем за пример
Създателите на S1 са намерили остроумен метод да управляват продължителността на този развой: когато моделът желае да завърши с мисленето, той вместо да употребява тага , използва думата „ Wait “ (изчакай), което го принуждава да премисли заключенията си. Тази техника се оказа елементарен и ефикасен метод за увеличение или понижаване на времето за мислене.
Подобен принцип е употребен в концепцията entropix – контролиране на избора на токени посредством разбор на ентропията. Очевидно сходни техники ще се употребяват все по-често както по време на етапа на образование, по този начин и по време на работата на ИИ моделите.
Евтино и дейно: нова епоха в образованието на ИИ
Един от най-изненадващите аспекти на S1 е цената на образованието: единствено 6 $. Този резултат е реализиран посредством свеждане до най-малко на количеството данни. Първоначалният набор от 56 000 образеца беше филтриран до 1000-та най-информативни, което беше задоволително, с цел да се реализира продуктивност на равнище OpenAI o1-preview с модела с 32B параметъра.
Новият модел е подготвен единствено за 26 минути на 16 графични процесора H100, което даде опция на създателите да проведат доста опити. Те са тествали всяка догадка благодарение на аблативен разбор – повторни осъществявания с дребни промени. Така да вземем за пример думата „ Wait “ (изчакай) е била по-ефективна от „ Hmm “ (хм), което е било потвърдено емпирично.
Подобни евтини опити форсират развиването на изкуствения разсъдък, като вършат проучванията налични освен за огромните корпорации, само че и за самостоятелните групи и даже обособените консуматори.
Политиката и бъдещето на развиването на ИИ
Иновациите, които понижават разноските за образование, повдигат въпроси за ролята на огромните играчи като OpenAI и Anthropic, които харчат милиарди за суперкомпютри. Може да се допусна, че голямата изчислителна мощност е непотребна, само че броят на вероятните опити се усилва съразмерно на ресурсите.
Обсъжда се и казусът с противозаконното прекопирване на данни (distealing). S1 употребява данните, генерирани от модела Qwen2.5, а OpenAI упреква DeepSeek в нелегално дестилиране на модела o1. Това повдига въпроса: допустимо ли е въобще да се управлява разпространяването на знанията за ИИ, в случай че даже напълно дребен брой образци са задоволителни за образованието на новите модели?
Заключение: какво ни чака по-нататък?
S1 демонстрира, че пробивите в региона на ИИ идват освен посредством огромни калкулации, само че и посредством евтини, само че премислени опити. Освен това тази научна работа удостоверява, че обичайното образование (SFT) може да бъде също толкоз дейно, колкото и методите за образование с укрепване (RL).
Темпото на развиване на технологиите през 2025 година дава обещание да бъде главозамайващо. Намираме се едвам при започване на февруари, само че към този момент е ясно, че предстоят значими открития.




