Обновлено: Февраль 2026

Честное сравнение
нейросетей

Независимые бенчмарки и тесты ведущих AI-моделей. Никакой рекламы — только данные, метрики и факты.

12 Моделей
8 Категорий
2,400+ Тестов
Ежемес. Обновления

Рейтинг моделей

Общий рейтинг на основе агрегированных результатов по всем категориям тестирования

# Модель Общий балл Код Рассуждения Креатив Математика Уровень

Результаты бенчмарков

Детальное сравнение по ключевым бенчмаркам индустрии

MMLU-Pro

Знания
Massive Multitask Language Understanding — расширенный тест на знания в 57 предметных областях

HumanEval+

Код
Генерация кода на Python по описаниям функций с расширенными тестами

GPQA Diamond

Рассуждения
Graduate-level вопросы по физике, химии и биологии, проверенные экспертами

MATH-500

Математика
500 задач олимпиадного уровня по алгебре, геометрии, теории чисел и комбинаторике

MT-Bench

Диалог
Многоходовые диалоги с оценкой качества ответов судейской моделью

ARC-Challenge

Логика
AI2 Reasoning Challenge — задачи на научное и логическое мышление

Обзор моделей

Краткая характеристика каждой модели: сильные стороны, ограничения и области применения

Методология

Как мы проводим тестирование и почему нашим результатам можно доверять

🔬

Стандартизированные тесты

Используем общепринятые бенчмарки индустрии: MMLU, HumanEval, GPQA, MATH и другие. Каждый тест запускается в идентичных условиях для всех моделей.

🔄

Регулярные обновления

Результаты обновляются ежемесячно. При выходе новых версий моделей мы перезапускаем все тесты в течение 72 часов.

⚖️

Независимость

Мы не аффилированы ни с одним провайдером AI. Все тесты проводятся на стандартных API без специальных настроек или промптов.

📊

Прозрачность

Параметры каждого теста, промпты и сырые результаты доступны в нашем репозитории. Каждый может воспроизвести наши результаты.

🎯

Многомерная оценка

Мы не сводим всё к одной цифре. 8 категорий тестирования позволяют увидеть реальные сильные и слабые стороны каждой модели.

🛡️

Защита от утечек

Часть тестов использует приватные датасеты, которые не могли попасть в обучающие данные, что исключает «заучивание» ответов.