Вышла опенсорсная модель для кодинга, которая обходит Claude Opus 4.7 на ключевых бенчмарках

Вышла опенсорсная модель для кодинга, которая обходит Claude Opus 4.7 на ключевых бенчмарках

DeepReinforce выпустила Ornith-1.0, семейство открытых моделей заточенных под агентное кодирование. Четыре варианта: 9B Dense, 31B Dense, 35B MoE и 397B MoE. Базы Gemma 4 и Qwen 3.5.

Ключевая идея модели в том, что она учится не только решать задачи, но и строить сценарии их решения. Обычные модели получают готовый «каркас» того, как подходить к задаче, и работают по нему. Ornith сама его генерирует и улучшает в процессе обучения.

Flagship версия 397B набрала 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified. Claude Opus 4.7 на тех же тестах показывает 70.3 и 80.8.

35B версия обгоняет Qwen 3.5-397B на Terminal-Bench, то есть модель в 11 раз меньше по параметрам работает лучше на этом тесте.

9B вариант, который запускается на обычном железе, обходит Gemma 4-31B на нескольких бенчмарках.

Все модели доступны на Hugging Face.

Вышла опенсорсная модель для кодинга, которая обходит Claude Opus 4.7 на ключевых бенчмарках

Подпишись,чтобыничего непропустить

читайтедальше

xAI выпустил конструктор голосовых агентов — Voice Agent Builder

Google превратил NotebookLM в генератор коротких роликов из ваших документов

Anthropic выпустила Claude Science, рабочую среду для научных исследований

Подпишись,
чтобы
ничего не
пропустить

читайте
дальше