
HiDream выпустила HiDream-O1-Image, которые заменяет сразу три инструмента для работы с изображениями
HiDream выпустила HiDream-O1-Image под открытой лицензией. Модель умеет генерировать изображения из текста, редактировать готовые и персонализировать их под конкретный стиль и всё это в одной модели без переключения между разными инструментами.
Архитектура называется Pixel-Level Unified Transformer. Суть в том, что пиксели, текст и условия задачи обрабатываются в одном общем пространстве токенов. Нет отдельного энкодера для текста, нет внешнего VAE для работы с изображениями всё внутри одной модели. Максимальное разрешение на выходе 2048 на 2048 пикселей.
Модель с 8 миллиардами параметров доступна на HuggingFace.
Ежедневные подборки промптов, свежие новости и материалы об ИИ — там, где удобно. Без спама, только редакционный отбор.