Вышла LTX-2.3: открытая модель, которая генерирует видео и звук одновременно

Вышла LTX-2.3: открытая модель, которая генерирует видео и звук одновременно

Lightricks выпустила LTX-2.3 в открытый доступ. Это видеогенератор с открытыми весами, который создаёт видео и аудио в одном проходе, без отдельных шагов и внешних инструментов.

Большинство видеогенераторов работают так: сначала видео, потом звук отдельно, потом их синхронизируют. LTX-2.3 делает всё это за один раз. Диалог, движение губ и фоновые звуки появляются вместе и сразу согласованы между собой.

Модель генерирует до 20 секунд видео с высоким разрешением и частотой кадров. Поддерживает текст, изображение, видео, аудио и карту глубины как входные данные. Есть LoRA для тонкой настройки под конкретный стиль или персонажа. Можно дообучить модель под конкретное лицо, бренд или стиль видео.

Запускается локально на мощных потребительских видеокартах, без облачной инфраструктуры. Весь код и веса доступны на GitHub, интеграция с ComfyUI уже готова.

Веса