Нова технология успява да промени света фундаментално?
Досега моделите за ръководство на роботите, които имитират физическия свят, не напредват със скоростта, с която се развиват езиковите модели като GPT.
Но новите " мултивселенски " симулатори от Nvidia и Гугъл могат бързо да трансформират това.
Проблемът с данните за роботиката
Основният проблем, който забавя развиването на физическия изкуствен интелект (ИИ), е неналичието на задоволително данни. Докато езиковите модели (LLMs) могат да се образоват с голямото количество текст, изображения и видео в интернет, при моделите за държание (LBMs) липсват такива обемни набори от данни.
Роботите и самостоятелните транспортни средства са скъпи и физически комплицирани, по тази причина събирането на данни за 3D представяния на действителни обстановки върви доста по-бавно. Това изяснява за какво Tesla интензивно интегрира хардуер за самостоятелно ръководство в колите си, с цел да събере данни и да изпревари съперниците в създаването на самоуправляващи се технологии.
Наскоро Nvidia и Гугъл Deepmind оповестиха нови начинания, които могат да преодолеят този проблем с данните чрез симулации на светове. Тези симулатори основават големи количества данни, основани на една действителна обстановка или даже единствено текстов промпт.
Например, в случай че имате запис от шест камери на самостоятелен автомобил, който кара през безоблачен ден, симулаторите могат да основат 3D модел на тази обстановка и да я варират стотици пъти - при разнообразни метеорологични условия, часове на деня или дейности на други участници в придвижването.
Тези симулации включват разнородни случаи, които са извънредно редки в действителния свят. Всяка симулация генерира нови сюжети, в които роботът или автомобилът би трябвало да реагират друго. С помощта на тези 3D симулации се основават и висококачествени видео и сензорни данни, които могат да се употребяват за образование на AI.
" Моментът ChatGPT за роботика наближава, " съобщи Дженсън Хуанг, създател и изпълнителен шеф на Nvidia, при представянето на новия модел Cosmos на CES. " Създадохме Cosmos, с цел да демократизираме физическия AI и да сложим общата роботика в ръцете на всеки разработчик. "
Моделът Cosmos може да симулира всички вероятни бъдещи дейности в действително време, с цел да помогне на AI да избере най-хубавия път на деяние. За да се оправи с големите условия за данни и обработка, Nvidia показа и " Cosmos Tokenizer, " който понижава количеството нужни данни осемкратно и форсира обработката 12 пъти.
Компании като 1X, Figure AI, Agility и Uber към този момент употребяват Cosmos за образование на роботи и самостоятелни транспортни средства.
Гугъл Deepmind също започва сходен план, въпреки и с известно забавяне по отношение на Nvidia. Тим Брукс, водач на екипа за симулации на Deepmind, показа, че този вид симулации са основна стъпка към изкуствения общ разсъдък (AGI). Deepmind счита, че огромното авансово образование на видео и мултимодални данни ще докара до забележителен прогрес в образната преценка, планирането на самостоятелни сътрудници и интерактивните занимания.
Докато езиковите модели заплашват да заменят бели яки, физическият AI в роботи и транспортни средства се насочва към специалности, свързани с физически труд. Технологията е невероятна и има потенциала фундаментално да промени света.