Нова еволюция: машини обучават машини. GPT-4 демонстрира, че обучава роботите по-добре от хората
Софтуерният пакет DrEureka дава опция на всеки да образова роботи благодарение на огромните езикови модели от вида на ChatGPT 4. Системата употребява кардинално нов метод – „ учене от нулата “, при който роботът усвоява комплицирани умения във виртуална среда благодарение на GPT подсказки. След това минава към осъществяване на задания в действителния свят. Така да вземем за пример разработчиците са съумели да научат робота да балансира и да върви върху топка за йога само посредством симулационно образование. При образованието на робота DrEureka знаително превъзхожда хората, като реализира 34% нарастване на скоростта и 20% нарастване на изминатото разстояние спрямо подготвен от хората робот.
DrEureka е нов софтуерен пакет с отворен код, който е наличен за всички. Той дава опция за образование на роботи за осъществяване на действителни задания благодарение на огромни езикови модели като GPT-4. Роботите се образоват във виртуална среда със симулирана физика, преди да преминат към осъществяване на дейности в действителния свят. Разработчикът на DrEureka, доктор Джим Фан, притегли вниманието към плана, като употребява четирикракия робот Unitree Go1 с отворен код.
„ Успяхме да научим робота да балансира и да върви върху топка за йога само посредством симулационно образование. Не беше належащо в допълнение адаптиране – роботът незабавно се показа доста добре в действителния свят “,
пише Фан в X.
При симулацията на инцидентен принцип се дефинират разнообразни параметри, като да вземем за пример търкане, маса, демпфиране, център на тежестта и други Нужни са единствено няколко подсказки за някой огромен езиков модел като ChatGPT. След това изкуственият разсъдък може да напише код, който основава система за награди/наказания за образование на робота във виртуалното пространство. В него 0 значи крах, а всяка стойност над 0 – триумф. Колкото по-висок е резултатът, толкоз по-добре.
Тази система може да основава параметри посредством минимизиране и максимизиране на точките на неуспех/загуба на робота в другите области. Така да вземем за пример тя избира оптималната разтегливост на топката, мощността на мотора, степените на независимост на крайниците и демпферирането. Поради своето естество LLM е в положение да генерира голям брой такива разновидности на параметри. А това разрешава на системата за образование да се оправя с огромно количество данни. След всеки симулационен цикъл ChatGPT проучва какъв брой добре се е справил виртуалният робот и по какъв начин може да бъде усъвършенстван. Превишаването или нарушаването на параметрите, като да вземем за пример прегряване на мотора или опит за пренасяне на крак отвън неговите благоприятни условия, ще докара до нулев резултат.
Може би това е началото на една нова еволюция, при която машини образоват машини без каквото и да било присъединяване от страна на индивида.




