
Вышла опенсорсная модель для кодинга, которая обходит Claude Opus 4.7 на ключевых бенчмарках
DeepReinforce выпустила Ornith-1.0, семейство открытых моделей заточенных под агентное кодирование. Четыре варианта: 9B Dense, 31B Dense, 35B MoE и 397B MoE. Базы Gemma 4 и Qwen 3.5.
Ключевая идея модели в том, что она учится не только решать задачи, но и строить сценарии их решения. Обычные модели получают готовый «каркас» того, как подходить к задаче, и работают по нему. Ornith сама его генерирует и улучшает в процессе обучения.
Flagship версия 397B набрала 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified. Claude Opus 4.7 на тех же тестах показывает 70.3 и 80.8.
35B версия обгоняет Qwen 3.5-397B на Terminal-Bench, то есть модель в 11 раз меньше по параметрам работает лучше на этом тесте.
9B вариант, который запускается на обычном железе, обходит Gemma 4-31B на нескольких бенчмарках.
Все модели доступны на Hugging Face.
Ежедневные подборки промптов, свежие новости и материалы об ИИ — там, где удобно. Без спама, только редакционный отбор.