Независимые бенчмарки и тесты ведущих AI-моделей. Никакой рекламы — только данные, метрики и факты.
Общий рейтинг на основе агрегированных результатов по всем категориям тестирования
| # | Модель | Общий балл | Код | Рассуждения | Креатив | Математика | Уровень |
|---|
Детальное сравнение по ключевым бенчмаркам индустрии
Краткая характеристика каждой модели: сильные стороны, ограничения и области применения
Как мы проводим тестирование и почему нашим результатам можно доверять
Используем общепринятые бенчмарки индустрии: MMLU, HumanEval, GPQA, MATH и другие. Каждый тест запускается в идентичных условиях для всех моделей.
Результаты обновляются ежемесячно. При выходе новых версий моделей мы перезапускаем все тесты в течение 72 часов.
Мы не аффилированы ни с одним провайдером AI. Все тесты проводятся на стандартных API без специальных настроек или промптов.
Параметры каждого теста, промпты и сырые результаты доступны в нашем репозитории. Каждый может воспроизвести наши результаты.
Мы не сводим всё к одной цифре. 8 категорий тестирования позволяют увидеть реальные сильные и слабые стороны каждой модели.
Часть тестов использует приватные датасеты, которые не могли попасть в обучающие данные, что исключает «заучивание» ответов.