Российские специалисты в области искусственного интеллекта подготовили большое количество разнообразных тестов, основанных на психометрических подходах, с помощью которых можно будет максимально точно оценивать эффективность нейронных сетей, выступающих в качестве помощников для учеников, студентов и преподавателей. О перспективной разработке рассказали в пресс-службе Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ).
«Мы разработали новый подход, который выходит за рамки традиционного тестирования. Наш подход проиллюстрирован специальным новым обширным тестом для языковых моделей, который нацелен на проверку ИИ в педагогике. Он строится по принципам психометрики и ориентирован на ключевые компетенции, важные в преподавательской деятельности», — пояснила доцент Института образования НИУ ВШЭ Елена Карданова, чьи слова приводит пресс-служба вуза.
Авторы исследования пояснили, развитие сферы искусственного интеллекта и появления огромного количества языковых моделей, способных решать самые разные задачи, повлияло на повышение интереса к разработке инструментов, способных оценивать эффективность работы нейросетей.
Чтобы решить подобную задачу, специалисты заручились поддержкой опытных учёных в области педагогики и образования. Совместная работа привела к появлению более 3900 уникальных заданий, которые распределены на 16 профессиональных категорий, включая методы преподавания, психологию образования и управление классом. Основой каждой задачи стали методы психометрики — науки, которая сочетает в себе психологию, математику и педагогику. Использовались также подходы, разработанные известным американским психологом Бенджамином Блумом.
Для тестирования системы была задействована русскоязычной версии большой языковой модели GPT-4. В итоге выяснилось, она испытывает проблемы, когда требуется более глубокое понимание сложных задач и наличие адаптивного мышления. Учёные заявили, модель прекрасно решает задачи, требующие установление фактов, однако слаба, когда ситуация требуется детального анализа. Кроме того, GPT-4 не всегда хорошо справляется и с простыми теоретическими задачами.
«Разработанный нами подход позволяет наглядно показать ключевую проблему ИИ сегодня: никогда не знаешь, где ждать ошибки. Модель может ошибаться даже в простейших заданиях, которые могут считаться ядром дисциплины. Наш тест показывает ключевые проблемы и в области знаний, и в области прикладного применения, тем самым намечает путь к преодолению ключевых проблем. Устранять их критически важно, ведь мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников», — подытожил научный руководитель НИУ ВШЭ Ярослав Кузьминов, чьи слова приводит пресс-служба вуза.