Google выложила модель, которая генерирует музыку в реальном времени прямо на устройстве

Google выложила модель, которая генерирует музыку в реальном времени прямо на устройстве

Google DeepMind выпустила Magenta RealTime 2. Это открытая модель для генерации музыки, которая работает локально на устройстве и управляется в реальном времени с задержкой около 200 миллисекунд.

Модель не создаёт трек целиком, а генерирует музыку непрерывным потоком, покадрово. Управлять ей можно тремя способами. Текстовым промптом, аудиопримером или MIDI. Можно менять стиль, жанр и инструменты прямо во время генерации, и модель подстраивается на лету.

Внутри три компонента. SpectroStream кодирует аудио в токены из стерео 48kHz. MusicCoCa связывает текст и аудио в одном пространстве. Decoder-only трансформер генерирует музыку на основе контекста, стиля и MIDI-ввода. Есть две конфигурации. Base на 2.4 миллиарда параметров и small на 230 миллионов.

LLM теперь работает покадрово, а не кусками. Это даёт более тонкий контроль и меньшую задержку.

Обучена на 71 тысяче часов стоковой инструментальной музыки. На момент выхода это единственная открытая модель, которая умеет непрерывно генерировать музыку в реальном времени с таким низким лагом.

Google выложила модель, которая генерирует музыку в реальном времени прямо на устройстве

Подпишись,чтобыничего непропустить

читайтедальше

Black Forest Labs показала новую модель FLUX 3

Claude научился искать уязвимости в коде

Anthropic добавила в Claude Code режим для работы со скринридерами

Подпишись,
чтобы
ничего не
пропустить

читайте
дальше