През последните две години базираните на изкуствен интелект генератори на

Meta анонсира производителния ИИ-генератор на изображения CM3Leon с поддръжка на точни команди за редактиране

През последните две години основаните на изкуствен интелект генератори на изображения станаха съвсем всекидневие и на пръв взор не се разграничават толкоз един от различен по своята работа. Но Meta твърди, че новият модел CM3Leon, създаден от инженерите на компанията, е пробив.

Разликата сред модела Meta CM3Leon, съгласно разработчиците, е високата продуктивност при преобразуването на текста в изображение. Същевременно, това е един от първите модели, които обезпечават противоположната интервенция — основаване на описания на изображенията. Повечето модерни генератори на изображения, в това число и OpenAI DALL-E, Гугъл Imagen и Stable Diffusion, при основаването на изображенията употребяват дифузия — процесът на последователно унищожаване на шума от първичното изображение, до момента в който се доближава към задачата. Резултатът е безапелационен, само че този логаритъм изисква обилни изчислителни запаси, което прави работата на такива системи скъпа, а самите модели мудни и просто не могат да действат в действително време.

Редактиране на истинското изображение: момичето е заменено с космат мъж, добавени са очила, увеличена е възрастта, лицето е нарисувано

Моделът CM3Leon действа по кардинално друг метод — той е основан на алгоритъм-трансформър, предоставящ оценка на съответността на изходните данни, било то текст или изображение. Трябва да се означи, че OpenAI в началото създаваше генератори на изображения, основани на модел-трансформър, само че Image GPT беше сменен от дифузионни логаритми. При образованието на CM3Leon са употребявани 2 милиона, лицензирани от Shutterstock, изображения — най-мощната версия на модела има 7 милиарда параметъра — два пъти повече от OpenAI DALL-E 2. И най-после, тук е употребен механизмът за дообучение SFT (Supervised Fine-Tuning), който е присъщ генератор на текст. В резултат на това, продуктивността на модела се е нараснала при генериране на изображения и сформиране на описания към готовите изображения, а системата е получила опцията да редактира картинките благодарение на текстови команди, като да вземем за пример „ промени цвета на небето в блестящо синьо “.

Генериране на интериор с обекти, за които са посочени точни координати

В резултат на това Meta CM3Leon възприема в качеството на изходни данни доста характерни команди — като това, в кои области от изображението в пиксели би трябвало да се намира един или различен предмет. За съпоставяне, DALL-E подценява такива нюанси и постоянно даже отхвърля да сложи в изображението обектите, които са посочени в инструкциите.