Нов изкуствен интелект на OpenAI създава 3D модели по текст за минути
Изкуственият разсъдък (AI) към този момент промени доста сфери и очевидно продължава своята агресия. Една от идващите му цели е основаването на 3D модели.
Във вторник, OpenAI, стартъпът за изкуствен интелект, учреден от Илон Мъск, който стои зад известния генератор на текст в изображения DALL-E, разгласи стартирането на най-новата си платформа POINT-E. Тя може да основава 3D облаци от точки непосредствено от текстови директиви. И до момента в който съществуващи системи като DreamFusion на Гугъл нормално изискват няколко часа и няколко графични процесора, с цел да генерират изображения, Point-E се нуждае единствено от един графичен процесор и една-две минути, оповестява Engadget.
3D моделирането се употребява в разнообразни промишлености и приложения. CGI (Computer-Generated Imagery) резултатите на актуалните кино блокбъстъри, видеоигрите, VR и AR, задачите на НАСА за картографиране на лунни кратери, плановете на Гугъл за запазване на културното завещание и визията на Meta за метавселената - всичко това зависи от опциите за 3D моделиране. Създаването на фотореалистични 3D изображения обаче към момента е развой, изискващ запаси и време, макар работата на NVIDIA за автоматизиране на процеса и мобилното приложение RealityCapture на Epic Game, което разрешава на всеки с телефон с iOS да сканира обекти от действителния свят като 3D изображения.
Логичното продължение
През последните години AI системите за превръщане на текст в изображение като DALL-E 2 и Craiyon на OpenAI, DeepAI, Lensa на Prisma Lab или Stable Diffusion на HuggingFace бързо набраха известност измежду потребителите. Дотолкова, че към този момент против тях се води акция на доста равнища от страна на художници по целия свят.
Превръщането на текст в 3D модел е разумното продължение на тези разработки. Point-E, за разлика от сходните системи, " употребява огромен набор от двойки текст-изображение, което му разрешава да следва разнородни и комплицирани подсказки “.
„ За да създадем 3D обект от текстово задание, първо вършим извадка на изображение от базата данни, като използваме модела " текст-изображение ", и по-късно вършим извадка на 3D обект, обусловена от извадката на изображението. И двете стъпки могат да се извършат за няколко секунди и не изискват скъпи процедури за оптимизация ", изяснява изследователският екип на OpenAI, управителен от Алекс Никол.
С други думи казано, в случай че въведете текстово задание " Куче, което яде колбас ", Point-E първо ще генерира синтетичен аспект на 3D визуализация на упоменатото куче, която яде колбас. След това генерираното изображение ще премине през поредност от дифузионни модели, с цел да сътвори 3D облак от цветни точки на база на първичното изображение - първо ще сътвори недодялан модел на облака от 1024 точки, а по-късно по-фин от 4096 точки.
Всеки от тези дифузионни модели е бил подготвен върху " милиони " 3D обекти, всички преобразувани в типов формат.
Ако желаете да го изпробвате сами, OpenAI разгласява кода на плановете с отворен код в платформата Github.
Във вторник, OpenAI, стартъпът за изкуствен интелект, учреден от Илон Мъск, който стои зад известния генератор на текст в изображения DALL-E, разгласи стартирането на най-новата си платформа POINT-E. Тя може да основава 3D облаци от точки непосредствено от текстови директиви. И до момента в който съществуващи системи като DreamFusion на Гугъл нормално изискват няколко часа и няколко графични процесора, с цел да генерират изображения, Point-E се нуждае единствено от един графичен процесор и една-две минути, оповестява Engadget.
3D моделирането се употребява в разнообразни промишлености и приложения. CGI (Computer-Generated Imagery) резултатите на актуалните кино блокбъстъри, видеоигрите, VR и AR, задачите на НАСА за картографиране на лунни кратери, плановете на Гугъл за запазване на културното завещание и визията на Meta за метавселената - всичко това зависи от опциите за 3D моделиране. Създаването на фотореалистични 3D изображения обаче към момента е развой, изискващ запаси и време, макар работата на NVIDIA за автоматизиране на процеса и мобилното приложение RealityCapture на Epic Game, което разрешава на всеки с телефон с iOS да сканира обекти от действителния свят като 3D изображения.
Логичното продължение
През последните години AI системите за превръщане на текст в изображение като DALL-E 2 и Craiyon на OpenAI, DeepAI, Lensa на Prisma Lab или Stable Diffusion на HuggingFace бързо набраха известност измежду потребителите. Дотолкова, че към този момент против тях се води акция на доста равнища от страна на художници по целия свят.
Превръщането на текст в 3D модел е разумното продължение на тези разработки. Point-E, за разлика от сходните системи, " употребява огромен набор от двойки текст-изображение, което му разрешава да следва разнородни и комплицирани подсказки “.
„ За да създадем 3D обект от текстово задание, първо вършим извадка на изображение от базата данни, като използваме модела " текст-изображение ", и по-късно вършим извадка на 3D обект, обусловена от извадката на изображението. И двете стъпки могат да се извършат за няколко секунди и не изискват скъпи процедури за оптимизация ", изяснява изследователският екип на OpenAI, управителен от Алекс Никол.
С други думи казано, в случай че въведете текстово задание " Куче, което яде колбас ", Point-E първо ще генерира синтетичен аспект на 3D визуализация на упоменатото куче, която яде колбас. След това генерираното изображение ще премине през поредност от дифузионни модели, с цел да сътвори 3D облак от цветни точки на база на първичното изображение - първо ще сътвори недодялан модел на облака от 1024 точки, а по-късно по-фин от 4096 точки.
Всеки от тези дифузионни модели е бил подготвен върху " милиони " 3D обекти, всички преобразувани в типов формат.
Ако желаете да го изпробвате сами, OpenAI разгласява кода на плановете с отворен код в платформата Github.
Източник: profit.bg
КОМЕНТАРИ




