Stable Audio 3.0 генерирует треки до 6 минут прямо на процессоре

Stable Audio 3.0 генерирует треки до 6 минут прямо на процессоре

Stability AI выпустила Stable Audio 3.0 и ComfyUI поддержал её в день релиза. Модели обучены на лицензированных данных, то есть результат можно использовать коммерчески.

Семейство состоит из трёх моделей. Small-SFX — для звуковых эффектов и коротких амбиентных звуков, до 2 минут. Small-Music — для коротких музыкальных петель, тоже до 2 минут. Обе работают на CPU, без видеокарты. Medium — для полноценных треков со структурой и музыкальностью, до 6 минут 20 секунд, требует GPU.

Для сравнения, предыдущая Stable Audio Open выдавала максимум 47 секунд.

Модель принимает текстовый промпт, жанр, инструменты, настроение, BPM и длительность в секундах. Готовые шаблоны для ComfyUI уже доступны в боковой панели в разделе Audio. Для запуска нужен ComfyUI версии 0.22.0 или выше.

Модели лежат на HuggingFace в коллекции stabilityai/stable-audio-3.