Обновлено: Февраль 2026

Честное сравнение
нейросетей

Независимые бенчмарки и тесты ведущих AI-моделей. Никакой рекламы — только данные, метрики и факты.

12 Моделей

8 Категорий

2,400+ Тестов

Ежемес. Обновления

#	Модель	Общий балл	Код	Рассуждения	Креатив	Математика	Уровень

Massive Multitask Language Understanding — расширенный тест на знания в 57 предметных областях

Генерация кода на Python по описаниям функций с расширенными тестами

Graduate-level вопросы по физике, химии и биологии, проверенные экспертами

500 задач олимпиадного уровня по алгебре, геометрии, теории чисел и комбинаторике

Многоходовые диалоги с оценкой качества ответов судейской моделью

AI2 Reasoning Challenge — задачи на научное и логическое мышление

🔬

Стандартизированные тесты

Используем общепринятые бенчмарки индустрии: MMLU, HumanEval, GPQA, MATH и другие. Каждый тест запускается в идентичных условиях для всех моделей.

🔄

Регулярные обновления

Результаты обновляются ежемесячно. При выходе новых версий моделей мы перезапускаем все тесты в течение 72 часов.

⚖️

Независимость

Мы не аффилированы ни с одним провайдером AI. Все тесты проводятся на стандартных API без специальных настроек или промптов.

📊

Прозрачность

Параметры каждого теста, промпты и сырые результаты доступны в нашем репозитории. Каждый может воспроизвести наши результаты.

🎯

Многомерная оценка

Мы не сводим всё к одной цифре. 8 категорий тестирования позволяют увидеть реальные сильные и слабые стороны каждой модели.

🛡️

Защита от утечек

Часть тестов использует приватные датасеты, которые не могли попасть в обучающие данные, что исключает «заучивание» ответов.

Честное сравнение
нейросетей

Рейтинг моделей

Результаты бенчмарков

MMLU-Pro

HumanEval+

GPQA Diamond

MATH-500

MT-Bench

ARC-Challenge

Обзор моделей

Методология

Стандартизированные тесты

Регулярные обновления

Независимость

Прозрачность

Многомерная оценка

Защита от утечек

Честное сравнение нейросетей

Рейтинг моделей

Результаты бенчмарков

MMLU-Pro

HumanEval+

GPQA Diamond

MATH-500

MT-Bench

ARC-Challenge

Обзор моделей

Методология

Стандартизированные тесты

Регулярные обновления

Независимость

Прозрачность

Многомерная оценка

Защита от утечек

Честное сравнение
нейросетей