HiDream выпустила HiDream-O1-Image, которые заменяет сразу три инструмента для работы с изображениями

HiDream выпустила HiDream-O1-Image, которые заменяет сразу три инструмента для работы с изображениями

HiDream выпустила HiDream-O1-Image под открытой лицензией. Модель умеет генерировать изображения из текста, редактировать готовые и персонализировать их под конкретный стиль и всё это в одной модели без переключения между разными инструментами.

Архитектура называется Pixel-Level Unified Transformer. Суть в том, что пиксели, текст и условия задачи обрабатываются в одном общем пространстве токенов. Нет отдельного энкодера для текста, нет внешнего VAE для работы с изображениями всё внутри одной модели. Максимальное разрешение на выходе 2048 на 2048 пикселей.

Модель с 8 миллиардами параметров доступна на HuggingFace.