
Google выложила модель, которая генерирует музыку в реальном времени прямо на устройстве
Google DeepMind выпустила Magenta RealTime 2. Это открытая модель для генерации музыки, которая работает локально на устройстве и управляется в реальном времени с задержкой около 200 миллисекунд.
Модель не создаёт трек целиком, а генерирует музыку непрерывным потоком, покадрово. Управлять ей можно тремя способами. Текстовым промптом, аудиопримером или MIDI. Можно менять стиль, жанр и инструменты прямо во время генерации, и модель подстраивается на лету.
Внутри три компонента. SpectroStream кодирует аудио в токены из стерео 48kHz. MusicCoCa связывает текст и аудио в одном пространстве. Decoder-only трансформер генерирует музыку на основе контекста, стиля и MIDI-ввода. Есть две конфигурации. Base на 2.4 миллиарда параметров и small на 230 миллионов.
LLM теперь работает покадрово, а не кусками. Это даёт более тонкий контроль и меньшую задержку.
Обучена на 71 тысяче часов стоковой инструментальной музыки. На момент выхода это единственная открытая модель, которая умеет непрерывно генерировать музыку в реальном времени с таким низким лагом.
Ежедневные подборки промптов, свежие новости и материалы об ИИ — там, где удобно. Без спама, только редакционный отбор.