Какво следва генерирането на изображения чрез ИИ? За Stability AI

Stability AI представи Stable Audio – ИИ генератор на музика

Какво следва генерирането на изображения посредством ИИ? За Stability AI това е генерирането на текст в аудио

Емил Василев преди 9 секунди 0 Сподели

Най-четени

IT НовиниДаниел Десподов - 12:46 | 12.09.2023

Военноморските сили на Съединени американски щати създават напълно нов вид трансформиращ се хиперзвуков мотор

ТелефониДаниел Десподов - 13:32 | 11.09.2023

Според мениджмънта на компанията смарт телефонът Redmi Note 13 Pro+ няма да има конкуренция в мобилната снимка

ХардуерСветлин Желев - 11:09 | 11.09.2023

Разследването на 7 nm чип на Huawei от Съединени американски щати провокира растеж на акциите на китайските производители на съоръжение

Емил Василевhttps://www.kaldata.com/

Stability AI – компанията която създаде технологията с изкуствен интелект Stable Diffusion за превръщане на текст в изображения разгласи общественото показване на Stable Audio – инструмент за генериране на къси аудиозаписи въз основа на текстови описания. Stable Audio се основава на същите съществени техники на генеративен ИИ, употребявани в Stable Diffusion за генерирането на изображения.

„ Stability AI е най-известна с работата си с изображения, само че в този момент пускаме първия си артикул за основаване на музика, наименуван Stable Audio. Идеята е доста елементарна: описвате музиката, която желаете да чуете и нашата система я генерира за вас. “
каза Ед Нютън-Рекс, вицепрезидент по аудио в Stability AI

Ед не е нов в света на компютърната музика: през 2011 година той основава стартъпа Jukedeck, който през 2019 година е закупен от TikTok. Технологията, която стои зад Stable Audio обаче се корени не в Jukedeck, а във вътрешното изследователско студио за основаване на музика на Stability AI, наречено Harmonai, основано от Зак Евънс. Евънс изясни, че текстовият модел употребява техника, известна като аудиоконтрастно авансово образование на езика (CLAP). Моделът на Stable Audio има към 1,2 милиарда параметъра, което е почти същото като истинската версия на Stable Diffusion за генериране на изображения.

Stable Audio работи непосредствено с необработени аудио мостри, с цел да обезпечи по-високо качество на изхода. Моделът е подготвен върху над 800 000 лицензирани музикални творби от аудиобиблиотеката AudioSparks.

„ Една от най-трудните задания при основаването на текстово основани модели е приемането на аудио данни, които са освен висококачествени, само че и имат подобаващи метаданни. “
обясни Еванс

Една от постоянно срещаните задания, които потребителите слагат пред моделите за генериране на изображения е да ги стилизират по този начин, че да наподобяват на избран реализатор. В случая на Stable Audio обаче потребителите няма да могат да изискат от изкуствения разсъдък да направи това – съгласно основателите на Stable Audio множеството музиканти по-скоро желаят да бъдат по-креативни.

Stable Audio ще бъде разполагаем гратис или в проект Pro за 12 $ на месец. Безплатната версия ще ви разрешава да създавате до 20 аудиозаписа на месец с дълготрайност до 20 секунди, до момента в който Pro версията усилва броя на записите до 500, а времето им за възпроизвеждане – до 90 секунди. Платената версия разрешава и комерсиално потребление на творбите. Като част от стартирането на пазара на Stable Audio Stability AI ще пусне и управление за текстови реплики.