arXiv:2509.16941v2 [cs.SE] · образец

SWE-Bench Pro: бенчмарки программной инженерии корпоративного уровня

А. Исследователь · Б. Соавтор · В. Научный руководитель

Независимая публикация · демонстрационные данные

Аннотация

Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который опирается на лучшие практики SWE-Bench, но специально спроектирован для решения реалистичных задач корпоративного уровня, выходящих за рамки прежних оценок.

1. Введение

Современные системы генерации кода обычно оцениваются на изолированных функциях или коротких задачах спортивного программирования. Такие постановки не отражают реальность корпоративной разработки, где задачи затрагивают множество файлов, зависят от сторонних API и требуют чтения тысяч строк контекста.

SWE-Bench Pro добавляет 412 задач из 23 репозиториев, каждая снабжена проверенным человеком патчем и набором регрессионных тестов. Задачи отфильтрованы так, что медианное решение затрагивает 4.2 файла и 137 строк кода — примерно на порядок больше, чем оригинальный SWE-Bench.

2. Построение бенчмарка

Мы выбирали задачи-кандидаты из публичной истории трекеров широко используемых Python- и TypeScript-проектов. Каждый кандидат оценивался по эвристике воспроизводимости (Pass@1 на регрессионном наборе при применении эталонного патча) и проверялся двумя аннотаторами.

3. Результаты

На метрике Pass@1 сильнейшая из современных моделей решает 18,4% задач SWE-Bench Pro по сравнению с 49,7% на оригинальном SWE-Bench. Анализ ошибок показывает, что узкими местами выступают длинноконтекстный поиск и правки сразу в нескольких файлах; чистое рассуждение редко оказывается ограничивающим фактором.

— конец образца —

SWE-Bench Pro: enterprise-grade software engineering benchmarks

Abstract

1. Introduction

2. Benchmark construction

3. Results

SWE-Bench Pro: бенчмарки программной инженерии корпоративного уровня

Аннотация

1. Введение

2. Построение бенчмарка

3. Результаты