ИИ «сдались»: нейросети не справились с воскресными головоломками
Группа исследователей протестировала способности искусственного интеллекта к рассуждению с помощью загадок из Sunday Puzzle — еженедельной радиовикторины NPR, которую ведет Уилл Шортц.
Команда специалистов из нескольких американских университетов при поддержке стартапа Cursor разработала универсальный тест для ИИ-моделей, используя задачи из различных выпусков викторины. Исследование выявило неожиданные детали: нейросети иногда осознанно «сдаются» и дают заведомо неверные ответы.
Почему загадки?
Sunday Puzzle — это не просто тест на знание фактов, а проверка логики, синтаксиса и критического мышления. Участники решают головоломки, для которых не требуется специальная теоретическая подготовка, но необходимо умение рассуждать.
Один из авторов исследования, Арджун Гуха, объяснил, что такой формат особенно сложен для ИИ, поскольку не позволяет использовать механическую память или просто подбирать ответы по шаблону.
«Эти головоломки сложны тем, что невозможно двигаться к решению постепенно. Либо ты находишь ответ, либо нет. Это требует сочетания интуиции и метода исключения», — пояснил он.
Однако метод тестирования не идеален: викторина ориентирована на англоязычную аудиторию, а её архив доступен в интернете, что потенциально дает моделям возможность «жульничать». Чтобы исключить этот фактор, исследователи планируют расширить набор уникальных загадок — сейчас тест включает около 600 задач.
Как показали себя нейросети?
В испытаниях o1 и DeepSeek R1 оказались лидерами по способности к рассуждению. Они тщательно проверяли свои ответы, но на поиск решения у них уходило больше времени, чем у других моделей.
Однако даже лучшие ИИ не достигли точности выше 60%. Некоторые модели вообще отказывались решать загадки.
«Я сдаюсь»: странное поведение нейросетей
В сложных ситуациях нейросеть DeepSeek R1 в ходе размышлений прямо писала «Я сдаюсь», а затем выдавала ошибочный ответ, будто выбранный наугад.
Другие модели пытались исправлять свои ошибки, но застревали в бесконечных рассуждениях, выдавали бессмысленные ответы или даже давали верные решения, но потом отказывались от них.
«В сложных случаях R1 буквально заявляет, что он „разочарован“. Забавно наблюдать, как модель имитирует человеческие эмоции. Нам еще предстоит понять, как „разочарование“ влияет на точность ее выводов», — отметил Гуха.
ИИ все еще далеки от человеческого мышления
Ранее исследователи проверили семь популярных чат-ботов в шахматном турнире. Ни одна модель не смогла полноценно справиться с игрой, что подтверждает ограниченность текущих алгоритмов в сложных задачах, требующих гибкого мышления.
Испытания с загадками Sunday Puzzle лишь подтвердили: ИИ пока не способен мыслить как человек, а в некоторых случаях он предпочитает просто «сдаться», а не продолжать поиск решения.