ИИ-модели провалили математику на китайском гаокао, но показали успехи в языке
Недавнее исследование показало, что семь ведущих больших языковых моделей (БЯМ), в числе которых флагманская ChatGPT-4o от OpenAI, столкнулись с серьёзными трудностями при прохождении математической части китайского выпускного экзамена гаокао. При этом, по данным тестирования, эти же модели продемонстрировали относительно хорошие результаты в языковых дисциплинах, что подчёркивает текущие ограничения и сильные стороны искусственного интеллекта в области обработки информации.
Тестирование проводилось с использованием системы OpenCompass, разработанной Шанхайской лабораторией искусственного интеллекта. В ходе эксперимента были оценены такие известные модели, как ChatGPT-4o, Qwen 2-72B от Alibaba, InternLM 2.0 (также разработанная Шанхайской лабораторией искусственного интеллекта) и LLM Mistral AI от французской компании Mistral AI. Общее количество протестированных моделей составило семь.
Результаты показали значительный разрыв между способностями ИИ в языковых и математических задачах. Максимальный общий балл за три теста гаокао составлял 420. Среди всех моделей наилучший результат показала Qwen 2-72B, набрав 303 балла. ChatGPT-4o немного отстала с 296 баллами, а InternLM 2.0 получила 295.5 балла. Модель LLM Mistral AI показала наименьший результат среди упомянутых, набрав всего 185 баллов.
Однако, когда речь зашла о математике, картина изменилась кардинально. Максимальный балл по математике в гаокао составляет 150. Ни одна из моделей не смогла приблизиться к этому показателю. Наивысший балл по математике среди всех протестированных моделей набрала InternLM 2.0, получив 75 баллов. ChatGPT-4o показала результат в 73 балла. Эти цифры ясно демонстрируют, что даже самые передовые БЯМ пока не способны эффективно решать сложные математические задачи, требующие глубокого понимания и логического мышления, на уровне, сопоставимом с человеческим.
Важно отметить, что экзамены проверялись вручную, и экзаменаторам не сообщали, что их сдавал искусственный интеллект. Это обеспечило объективность оценки, исключив предвзятость. Экзаменационные задания включали как точные задачи с однозначным ответом, так и открытые вопросы, требующие развёрнутых рассуждений, что позволило оценить не только фактические знания, но и способность к анализу и синтезу информации.
Полученные данные подчёркивают, что, несмотря на впечатляющие успехи в обработке естественного языка, генерации текста и даже творческих задачах, современные большие языковые модели всё ещё имеют значительные пробелы в областях, требующих строгой логики, точных вычислений и глубокого математического аппарата. Это указывает на необходимость дальнейших исследований и разработок в направлении улучшения математических способностей ИИ.
Результаты этого тестирования имеют важное значение для понимания текущих границ возможностей искусственного интеллекта. Они показывают, что, хотя БЯМ могут быть чрезвычайно полезны в задачах, связанных с языком и информацией, их применение в областях, требующих высокой точности и математической строгости, пока ограничено. Это особенно актуально для таких сфер, как научные исследования, инженерия и финансовый анализ, где ошибки в расчётах могут иметь серьёзные последствия.
Шанхайская лаборатория искусственного интеллекта, разработавшая систему OpenCompass и модель InternLM 2.0, продолжает играть ключевую роль в развитии и оценке ИИ-технологий. Их работа помогает выявлять сильные и слабые стороны существующих моделей, направляя будущие исследования на преодоление текущих ограничений и создание более универсального и интеллектуального искусственного интеллекта, способного решать широкий круг задач на высоком уровне.