Система за преобразуване на речта в реалност: AI и роботите се научиха да създават физически обекти чрез гласови команди
Генеративният изкуствен интелект се научи да рисува картини за секунди. Той написа код, композира симфонии и води разговори. Единственият проблем е, че всичко, което прави, е заключено в екрана. Можете да помолите невронната мрежа да нарисува стол, само че не можете да седнете на него.
Досега преходът от думата към движимостта изискваше медиатори: CAD инженери, дълги часове 3D моделиране, конфигуриране на 3D принтери, които отпечатват обекта за една нощ.
Изследователи от Масачузетския софтуерен институт (CSAIL и Center for Bits and Atoms) показаха система за превръщане на речта в действителност. Вие казвате: „ Имам потребност от елементарен стол. “ Пет минути по-късно пред вас стои действителен предмет, съединен от робот.
Как работи това
това Системата съставлява комплициран конвейер, който превежда езика във физически детайли. Процесът е разграничен на четири стъпки, като всяка последваща стъпка обосновава халюцинациите на предходната.
Тълкуване на желанията: всичко стартира с LLM (GPT-4 Turbo). Потребителят изрича една команда. Невронната мрежа проучва текста и отсява абстракциите. Ако поискате да „ създадете хубост “, системата ще ви откаже. Тя се нуждае от съответни обекти: маса, рафт, буквата „ Т “. Лингвистичният модел извлича същността на поръчката и я предава нататък.
Генериране на форми: тук се намесва моделът за превръщане на текст в 3D (в това проучване е употребен Meshy. ai). Той основава многоъгълна мрежа (mesh) – цифровата форма на обекта. На този стадий обектът наподобява правдоподобно за окото, само че е изцяло негоден в действителния свят. Невронните мрежи постоянно подценяват гравитацията и основават елементи, висящи във въздуха, или повърхности с нулева дебелина.
Дискретизация и физическа инспекция: гладкият 3D модел се разрушава на воксели – обемни пиксели. Системата трансформира една комплицирана криволинейна форма в набор от общоприети кубични блокове с размери 10x10x10 cm.
От генерираната от AI мрежа към дискретните съставни елементи, координати и сортирана поредност на сглобяване След това логаритъмът прави строга инспекция на действителността на приложението:
Инвентаризация: имаме ли толкоз доста кубчета? В пробната настройка имаше единствено 40 модула. Ако изкуственият разсъдък начертае престол от 100 кубчета, логаритъмът автоматизирано понижава модела, до момента в който той се вмести в ограничаването. Гравитация и конзоли: ще издържи ли структурата? Ако AI сътвори маса с триметров плот на един крайник, тя ще се преобърне. Алгоритъмът търси „ надвиснали “ неподдържани детайли. Ако конзолата е по-дълга от три блока, системата компресира модела хоризонтално, до момента в който физиката се съгласува. Вертикалната непоклатимост: колоните, които са прекомерно високи и тънки (стекове над 4 блока), са нестабилни. Алгоритъмът ги открива и мащабира обекта отвесно, като намалява центъра на тежестта. Свързаност: в цифровия модел частите могат да висят на милиметър една от друга. В действителността те ще паднат. Алгоритъмът прави напасване, тъй че всеки нов блок да има борд на контакт с към този момент конфигуриран блок или с пода. Роботизирано сглобяване: Шест-осният роботизиран манипулатор UR10 получава координатите. Той взема унифицираните блокове от транспортната лента и ги подрежда. Блоковете не се нуждаят от лепило или винтове – във вътрешността им има магнити, които обезпечават сцепление и самонивелиране.
Унифицирани блокове за сглобяване от робота Резултатът: експедитивност и осезаемост
Отпечатването на елементарна табуретка на огромен 3D принтер лишава към 3 дни и 1 час. Системата Speech-to-Reality сглобява функционална табуретка за 3 минути и 36 секунди.
При опитите откривателите сглобяват маси, лавици, букви и даже стилизирано куче. Времето за сглобяване варира от 1 до 5 минути.
Екологията на вокселите
Ключово преимущество на този метод е обратимостта. Традиционното произвеждане или 3D принтирането основават едносъставен дизайн. Ако столът ви омръзне или се счупи, не можете да го сглобите още веднъж.
Тук се употребява правилото на дискретното сглобяване. Блоковете са запас за многократна приложимост. След като обектът към този момент не е нужен, той може да бъде раздрънкан (ръчно или от същия робот), а блоковете могат да бъдат върнати на конвейера. Един и същ комплект от 40 модула през днешния ден е бил маса, на следващия ден ще се трансформира в рафт, а вдругиден ще бъде краткотрайна конструкция за галерия.
Обекти, основани от системата Speech-to-Reality. За всички модели е употребен еднакъв набор от елементи за многократна приложимост Някакви дефекти?
Системата меко казано не е съвършена.
Разделителна дарба: обектите наподобяват пикселизирани. Ограничени сте от размера на минималния блок (в случая 10 см). Не могат да се осъществят фините елементи и ергономичните извивки. Дълготрайност: магнитните връзки отстъпват на заваряването или леенето. Можете да поставите книга върху подобен стол, само че въпреки всичко е рисковано да стоите върху него с краката си. Трудност на възприемането на AI: генеративните модели към момента са склонни към халюцинации, а логаритмите за промяна би трябвало нападателно да трансформират формата на обекта, с цел да го създадат постоянен. Понякога резултатът се разграничава от концепцията на потребителя.Защо какво е належащо това
Speech-to-Reality е първообраз на интерфейса на бъдещето, в който разликата сред цифровото и материалното е сведена до най-малко.
Масачузетският софтуерен институт демонстрира, че физическият свят може да схване свойствата на цифровия свят: той може да стане бърз, модулен и редактируем.
(function() { const banners = [ // --- БАНЕР 1 (Facebook Messenger) --- `




