Intel и Blockade Labs представиха съвместен ИИ модел за синтез на 3D изображения
Intel и Blockade Labs взаимно създадоха LDM3D (Latent Diffusion Model for 3D) – модел с машинно образование за генериране на изображения и свързани с тях дълбочинни карти въз основа на текстови описания на натурален език. Разработката прилича системата за синтез на изображения със постоянна дифузия, само че разрешава генерирането на 3D образно наличие, като да вземем за пример сферични панорамни изображения, които могат да се преглеждат на 360 градуса. От практическа позиция моделът може да се употребява в игрите и системите за виртуална действителност за интерактивно образуване на триизмерни среди.
Готовият модел за системи с машинно образование се предлага за гратис евакуиране и може да се употребява с PyTorch и код, предопределен за генериране на изображения благодарение на моделите от плана Stable Diffusion. Моделът се популяризира под лиценза Creative ML OpenRAIL-M permissive, който разрешава комерсиална приложимост. Този отворен лиценз дава опция на откривателите и заинтригуваните разработчици да усъвършенстват модела съгласно своите потребности и да го усъвършенстват за тясно профилирани приложения.
За образованието на модела се употребява отвореният набор от данни LAION-400M, квалифициран от общността LAION (Large-scale Artificial Intelligence Open Network), която създава принадлежности, модели и сбирки от данни за създаване на безвъзмездни системи за машинно образование. Колекцията LAION-400M включва 400 милиона изображения с текстови описания.
В допълнение към изображенията и техните текстови описания моделът LDM3D употребява и карти на дълбочината, генерирани за всяко изображение благодарение на системата за машинно образование DPT (Dense Prediction Transformer), с цел да предвижда относителната дълбочина на всеки пиксел в плоското изображение. В съпоставяне с техниките за прогнозиране на дълбочината на стадия на следваща обработка, моделът LDM3D, в началото подготвен с дълбочина, разрешава да се даде по-точна информация за дълбочината още на стадия на генериране. Друго преимущество на модела е опцията да се основават данни за дълбочината, без да се усилва броят на параметрите – броят на параметрите в модела LDM3D е почти същият като в най-новия модел за постоянна дифузия.
За проява опциите на модела DepthFusion е квалифицирано особено приложение, което разрешава основаването на интерактивни 360-градусови среди за гледане въз основа на 2D RGB изображения и карти на дълбочината. Приложението е написано на езика за образно програмиране TouchDesigner, подобаващ за основаване на интерактивно мултимедийно наличие в действително време. LDM3D може да се употребява и за генериране и модифициране на изображения въз основа на препоръчан образец, планиране на резултата върху сфера за основаване на сферична среда, генериране на изображения въз основа на разнообразни позиции на наблюдаващия и генериране на видео въз основа на придвижването на виртуална камера.
Счита се, че препоръчаната технология има огромен капацитет за основаване на нови способи за взаимоотношение с потребителя, които биха могли да бъдат търсени в редица промишлености – от развлечения и игри до архитектура и дизайн. Така да вземем за пример LDM3D може да се употребява за основаване на интерактивни музеи и среди за виртуална действителност, които оформят детайлна среда въз основа на опростени описания на натурален език.




