Новият S* фреймуърк помага на AI-моделите да пишат по-добър и по-надежден код
Новата платформа S* разрешава на ИИ основаните езикови модели да генерират по-мощен и благонадежден код. Изследователи от Калифорнийския университет в Бъркли сътвориха фреймуърк, наречена S*, подобряващ метода, по който AI-езиковите модели генерират код. Системата съчетава два разнообразни метода — редом и серийно мащабиране — с нов метод за избор на най-хубавите резултати.
Въпреки че генерирането на голям брой елементи от код по едно и също време и изборът на най-хубавия (паралелно мащабиране) не е нищо ново, екипът от Бъркли е добавил нещо в допълнение. Комбинирали са това с итеративно мащабиране, при което системата непрестанно усъвършенства своите решения посредством систематично премахване на грешките.
Фреймуъркът вкарва разновидност на изчислението по време на тестванията като един от своите градивни детайли. За разлика от актуалните модели за размишление като OpenAI o1, S* включва външна противоположна връзка, вместо да разчита само на вътрешните вериги за размишление. Тази структура го прави съчетаем както с обичайните огромни езикови модели (LLM), по този начин и с по-новите модели на размишление (LRM).
Втората основна иновация е това, което екипът назовава „ адаптивен входен синтез “. По време на тестванията са употребявали GPT-4o mini за генериране на тестови входни данни за разнообразни евентуални решения. Чрез осъществяване на тези входни данни и анализиране на действителните резултати, AI може надеждно да дефинира най-хубавото решение.
Системата желае от AI-модела да сътвори тестови входове, особено предопределени за разкриване на разлики сред двете стратегии. Той употребява деликатно направените подсказки, които споделят на модела да вземе поради програмните случаи (като празни входове или рискови стойности), да генерира комплицирани, само че управляеми тестови случаи и да сътвори входове, които могат да разкрият евентуални неточности.
След това системата извършва и двете стратегии, като употребява тези тестови входни данни и връща резултатите към AI-модела, който взема решение кое решение се показва по-добре въз основа на действителните резултати от теста.
Екипът е тествал S* с 12 разнообразни езикови модела и разнообразни размери и видове, от което е разкрил поредни усъвършенствания на всички места: Qwen2.5-7B-Coder-Instruct със S* се показва с към 10% по-добре от Qwen2.5-32B-Coder-Instruct без него, а в някои случаи по-малките модели, употребяващи S*, превъзхождат по-големите модели за размишление — GPT-4o mini с S* превъзхожда o1-Preview. Дори мощните модели на размишление показват усъвършенстване при потребление на фреймуърка.
Фреймуъркът има някои ясни ограничавания. Понастоящем е усъвършенстван единствено за програмните задания и не е тестван върху по-сложни софтуерни инженерни задания. Екипът също по този начин се е фокусирал само върху подобряването на точността, оставяйки настрани проблемите с успеваемостта на ресурсите.
Подход, който съчетава итеративни усъвършенствания с благоприятни условия за търсене, евентуално е съдействал за триумфа на OpenAI в ARC-теста, където са създали голям брой паралелни поръчки към техния модел на размишление o3 и са избрали най-хубавите отговори, макар че точният способ остава незнаен. S* следва сходна философия и може да докара до усъвършенствани благоприятни условия за генериране на код в бъдеще.




