Инструмент оценки моделей

Альянс в сфере ИИ запустил MERA Code – первый открытый бенчмарк для оценки русскоязычных моделей на реальных задачах программирования.

В разработке бенчмарка принимали участие команды Сбера, Т-Банка, MWS AI (входит в МТС Web Services), Ростелекома, Университета Иннополис, ИТМО, Сколтеха, Центрального университета и компании «Сибирские нейросети».

Шаг к объективности

С развитием больших языковых моделей разработчики все чаще используют искусственный интеллект для генерации кода, автоматизации рутинных задач и работы с документацией. Однако до сих пор не существовало единого способа оценить, насколько хорошо эти модели справляются с практическими задачами в русскоязычной среде.

MERA Code – важный шаг к стандартизации и объективности оценки больших языковых моделей в русскоязычной среде программирования. Он позволяет увидеть, насколько современные большие языковые модели действительно полезны и эффективны в реальных задачах локального рынка.

Преимущества открытого бенчмарка

Ключевые особенности MERA Code заключаются в следующем:

Прозрачная методика оценки LLM для русского языка: впервые создан стандарт, учитывающий специфику постановки задач и документации на русском языке.
Задачи и методика оценки отражают типичные кейсы, с которыми сталкиваются программисты в русскоязычной среде.
11 разнообразных задач в форматах text2code, code2text и code2code – на восьми языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala.
Честное тестирование – код запускается в изолированных средах, а не просто оценивается по тексту.
Открытая платформа со сквозной системой подсчёта баллов, рейтингом и удобным фреймворком для тестирования.
Анализ и результаты, охватывающие как открытые общие модели, так и проприетарные API для генерации кода.

Инструмент MERA Code будет полезен разработчикам, инженерам, выбирающим наиболее эффективные модели для своих проектов, исследователям, которые смогут объективно сравнивать модели в единых условиях, а также компаниям, получающим возможность принимать решения на основе открытых и прозрачных данных о качестве LLM.

Источник: Пресс-служба Альянса в сфере ИИ

Инструмент оценки моделей

Шаг к объективности

Преимущества открытого бенчмарка

Следите за нашими новостями в
MAX-канале Connect-WIT

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Шаг к объективности

Преимущества открытого бенчмарка

Следите за нашими новостями вMAX-канале Connect-WIT

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями в
MAX-канале Connect-WIT