Новата система Stable Audio е обучена на повече от 800

AI генератор създава музика по текстово описание

Новата система Stable Audio е подготвена на повече от 800 000 части лицензирана музика

Изкуственият разсъдък навлиза неудържимо в креативната промишленост
(снимка: CC0 Public Domain)

Нова невронна мрежа Stable Audio е способна да генерира къси аудио клипове въз основа на текстови описания. Това е план на компанията Stability AI, която създаде технологията с изкуствен интелект Stable Diffusion за конвертиране на текст в изображения.

„ Stability AI е известна най-много с работата си с изображения, само че в този момент пускаме първия си артикул за основаване на музика и аудио, наименуван Stable Audio ”, сподели Ед Нютън-Рекс, вицепрезидент по аудио в компанията, представен от Venture Beat.

Новата система стъпва на същите съществени AI технологии, които Stable Diffusion употребява за основаване на изображения. „ Идеята е доста елементарна: вие описвате с текст музиката или звука, които желаете да чуете, и нашата система ги генерира за вас ”, разясни мениджърът.

Ед не е чужд в света на компютърната музика: през 2011 година той сътвори стартъпа Jukedeck, който беше добит от TikTok през 2019 година Въпреки това, технологията зад Stable Audio има своите корени не в Jukedeck, а във вътрешното изследователско студио за музикално произвеждане на Stability AI, наречено Harmonai и основан от Зак Еванс.

По думите на Еванс, текстовият модел употребява техника, известна като Contrastive Language Audio Pretraining (CLAP). Моделът Stable Audio има към 1,2 милиарда параметри, което е почти колкото в истинската версия за генериране на изображения на Stable Diffusion.
още по темата
Възможността за генериране на аудио записи благодарение на технология не е нещо ново. В предишното създателите използваха способ, наименуван генериране на знаци, който нормално се прилагаше при работа с MIDI (цифров интерфейс за музикални инструменти) формат.

Генеративните благоприятни условия на Stable Audio разрешават на потребителите да основават нова музика, която надвишава повтарящите се последователности от ноти, типични за MIDI и генерирането на знаци.

Stable Audio работи непосредствено с необработени аудио проби, с цел да обезпечи по-високо качество на изхода. Моделът е подготвен на повече от 800 000 части лицензирана музика от аудио библиотеката AudioSparks.

„ Едно от най-големите провокации при основаване на текстови модели е приемането на аудио данни, които освен са висококачествени, само че също по този начин имат подобаващи метаданни ”, изясни Еванс.

Често срещана задания, която потребителите задават на моделите за генериране на изображения, е стилизирането за съответен реализатор. Въпреки това, в тази ситуация на Stable Audio, потребителите няма да могат да се извърнат към AI с такова искане – съгласно основателите на системата, множеството музиканти биха предпочели да бъдат по-креативни.

Моделът на Stable Audio ще се предлага както гратис, по този начин и с тарифен проект Pro за $12 на месец. Безплатната версия разрешава основаване на 20 песни на месец с дълготрайност до 20 секунди, до момента в който Pro версията усилва броя на песните до 500, а времето им за възпроизвеждане до 90 секунди, което отваря път за комерсиалното им потребление.

Като част от акцията във връзка стартирането на новата услуга за генериране на музика, разработчикът Stability AI ще предложи и управление за текстови подсказвания.