Революция в роботиката: Новите ИИ модели на DeepMind позволяват на роботите да изпълняват задачи без предварително обучение
Гугъл DeepMind показа Gemini Robotics – два нови ИИ модела, които ще дадат опция на роботите да взаимодействат по-добре със света. Демонстрационни видеоклипове демонстрират роботи, които извършват гласови команди: сгъват оригами, слагат очила в калъф и хвърлят топка в мрежа, без авансово да са им обяснени разпоредбите на играта. Благодарение на образованието, основано на Gemini, роботите схващат подтекста, обобщават знанията си и се приспособяват към новите задания. Специално внимание се обръща на сигурността: устройствата освен заобикалят конфликтите, само че и правят оценка сигурността на своите дейности.
И двата модела са основани на Гугъл Gemini – мултимодалната система, която обработва текст, глас и изображения, с цел да дава отговор на въпроси и да оказва помощ на потребителите. Първият модел, Gemini Robotics, е кадърен освен да проучва данните, само че и да подава указания за физическите дейности на робота. Макар че моделите са съвместими с всевъзможен хардуер, те бяха тествани най-много върху двуръката система Aloha 2, показана от DeepMind предходната година.
В демонстрационния видеоклип се подават гласови команди: „ Вземи една баскетболна топка и направи забивка “. Роботизирана ръка деликатно подвига дребната топка и я хвърля в мрежата. По създание роботът в никакъв случай преди не се е сблъсквал с баскетбола, само че базовият му модел схваща разпоредбите на играта, знае по какъв начин наподобява мрежата и какво значи „ slam dunk “. Благодарение на това устройството съумява да свърже понятията и да извърши задачата в действителния свят.
Ръководителят на отдела по роботика на Гугъл DeepMind Каролин Парада съобщи, че новите модели превъзхождат предходните в три основни аспекта: генерализация, адаптивност и умелост. Според нея тези усъвършенствания са нужни за основаването на „ ново потомство потребни роботи “.
Обобщаването разрешава на робота да ползва научените концепции в нови обстановки. Изследователите са тествали образната генерализация (например по какъв начин роботът реагира на смяна в цвета на обекта или фона), генерализацията на командите (разбиране на другите формулировки) и генерализацията на дейностите (изпълнение на задания, с които роботът не се е сблъсквал преди).
Роботите, основани на Gemini, са по-способни да се оправят с изменящите се указания и условия. В различен видеоклип откривателят подрежда на манипулатора да сложи пластмасово грозде в транспарантен резервоар, след което стартира да реалокира три контейнера по масата, сходно на игра с напръстници. Роботът следи от близко верния резервоар, до момента в който не извърши задачата. Що се отнася до сръчността, роботизираните ръце сгъват оригами и извършват други деликатни задания. Но тези резултати бяха реализирани с стеснен набор от висококачествени данни, върху които роботът е бил подготвен за съответни задания. Така че тези качества не могат да бъдат пренасяни в други обстановки.
Вторият показан модел, Gemini Robotics-ER (embodied reasoning), имитира интуитивното схващане на физическия свят, което хората получават с опита си. Само като погледнем даден обект, ние можем да разберем по какъв начин да взаимодействаме с него. DeepMind има за цел да научи на това изкуствения разсъдък.
Така да вземем за пример Gemini Robotics-ER разпознава дръжката като оптималната точка за улавяне на чаша за кафе – сходно на метода, по който го вършат хората. Но тук има един колорит: фокусирането върху „ човешките “ данни може да бъде неефективно. За един робот, изключително в случай че държи чаша с горещо кафе, тънката ръкохватка е по-малко благонадежден вид, в сравнение с захващането на самата чаша с „ пръстите “ му. В последна сметка устройството, за разлика от индивида, няма да се изгори.




