Популярната компания за изследвания и разработка на изкуствен интелект OpenAI

Бот гледа 70 000 часа Minecraft, за да се научи да играе

Популярната компания за проучвания и разработка на изкуствен интелект OpenAI изобрети най-хубавия досега Minecraft бот, който изгледа над 70 000 часа видео, на което хора играят нашумялата компютърна игра, с цел да се научи да играе. Ботът показва тип нова техника за образование, която може да се употребява за основаването на машини, които да извършват огромен набор от задания като гледат видеа в YouTube и сходни уеб сайтове.

Minecraft AI се научава да извършва съответни поредици от кликвания на клавиатурата и мишката, с цел да прави разнообразни дейности в играта. Например ботът може да сече дърва и да основава разнообразни принадлежности, като прилича дейностите на играчите от изгледаните видеа, като в някои случаи тези последователности от кликвания може да наброяват десетки хиляди. Постигнатият резултат е пробив за технология, известна като образование посредством реплика. При тази техника AI се образова да извършва задания, като имитира видяното от хората и по какъв начин те правят избрани дейности. Обучението посредством реплика може да се употребява за трениране на изкуствен интелект в региона на роботизираните ръце или самостоятелните коли.

Така нареченото образование посредством реплика съставлява опция на образованието с укрепване (reinforcement learning). При втория случай, роботите базират дейностите си и се усъвършенстват посредством остарелия изпитан способ проба-грешка. Тази техника стои зад някои от най-големите достижения в сферата през последното десетилетие. Тя е употребена за образование на модели, които побеждават хора и експерти в игри с ясна цел, в които разнообразни дейности могат да доведат до триумф, като да вземем за пример покер и шах.

Роботът може да извърши разнообразни дейности, с цел да образува най-силната ръка в покера или да надделее в партията шах, само че те не всеки път ще доведат до същия резултат, тъй като играта се дефинира и от дейностите на съперника. Minecraft обаче е игра без последна цел, в която играчите имат свободата да вършат разнообразни неща: да се разхождат, да копаят, да строят, или пък да основават разнородни принадлежности или обекти. Този отворен завършек на играта я прави добра среда за образование на нови AI модели посредством реплика.

Налице е голямо количество видеа в онлайн пространството, показващи хора, които извършват разнообразни задания. Възползвайки се от тези нови за региона запаси, учените целят да реализират за образованието посредством реплика сходни резултати не тези, които фамозният им чатбот GPT-3 направи за огромните езикови модели. Проблемът с употребяваните досега подходи към този тип образование е, че всяко едно видео би трябвало да бъде описвано малко по малко, т.е. до какъв резултат води всяко едно деяние и придвижване. Създаването на ръчни анотации обаче лишава доста време, заради което сходни бази данни могат да имат доста по-малък размер. Затова екипът на OpenAI се насочва към задачата да откри метод, по който голямото количество видеоклипове в онлайн пространството да се трансфорат в нов набор от данни.

Екипът дава начало на плана с метода за Video Pre-Training (VPT). По този метод една невронна мрежа маркира автоматизирано видеоклиповете, с цел да улесни процеса, преди другата да извърши същинския развой на разбиране на информацията. Изследователите първо наели хора, които да играят на самата игра и записали всяко едно тяхно деяние в играта в композиция с видеото от екрана. Резултатът бил 2000 часа в детайли разказана Minecraft игра, която те употребявали за образованието на изкуствен интелект, който да прави дейностите и да съпоставя резултатите с видяното на екрана. Следващата стъпка била да се употребява този модел за етикетиране по отношение на хилядите часове немаркирано видео, след което ботът да се образова на този голям набор от данни.

Вследствие на този развой, ботът на OpenAI съумява да извърши задания, които не би могъл единствено посредством образование с укрепване и които включват стотици поредни стъпки. Въпреки това екипът открива, че най-успешни са резултатите от едновременното потребление на двата типа образование за укрепване и за реплика. Така един бот, който е квалифициран посредством Video Pre-Training и подсилващо образование, може да извършва задания с десетки хиляди поредни комбинации и стъпки.

Според AI откривателите този метод на образование може да се употребява за подготовка на изкуствен интелект по повод и на други типове задания. Той може да откри приложение при ботове, които да сърфират из мрежата, да пазарят онлайн или пък да резервират полети. Макар и в по-далечно бъдеще, на доктрина този метод може да се употребява и за образование на ИИ, които да извършват действителни задания отвън виртуалното пространство, като се базират на събраната информация от видео материали на хора, извършващи същите тези дейности.