- Автор темы
- #1

Исследователи из Калифорнийского университета в Сан-Диего впервые продемонстрировали прохождение системами искусственного интеллекта трехсторонней версии классического теста Тьюринга
В частности, в прохождении теста приняли участие модели ИИ LLama 3.1-405B от Meta, модели GPT-4o и GPT-4.5 компании OpenAI, а также самая первая в мире программа виртуального собеседника ELIZA, разработанная около 80 лет назад Джозефом Вейценбаумом. Среди них версия GPT-4.5 в 73% случаев воспринималась людьми, которые проходили тест, как другой реальный человек.
В рамках прохождения трехсторонней версии классического теста Тьюринга в каждом раунде общения участвовали два человека и одна система искусственного интеллекта. Людям по результатам общения необходимо было определить, с кем они общаются, либо с ИИ, либо с другим реальным человеком. Участники получали два параллельных диалога с человеком и ИИ, 5 минут могли задавать любые вопросы и использовать любые стратегии, чтобы понять, где кто, а потом — должны были проголосовать.
Исследователи по 2 раза проверяли каждую модель по двум базовым системным сценариям. В первом случае перед ИИ открыто ставили задачу ввести человека-участника в заблуждение и заставить думать, что тот общается с реальным собеседником. Во втором случае ИИ не давали конкретных инструкций, что именно нужно делать, а просто просили имитировать молодого человека, который интересуется интернет-культурой и использует сленг в общении.
При этом именно со вторым сценарием системы искусственного интеллекта справились лучше. В сценарии, когда ИИ открыто ставили задачу ввести реальных собеседников в заблуждение, результат успеха GPT-4.5 составил лишь 36%. Тогда как, выдавая себя за молодого человека, эта модель успешно смогла ввести в заблуждение обоих реальных собеседников и показать результаты в 73%.

Cameron R. Jones, Benjamin K. Bergen
У ИИ LLama 3.1-405B от Meta результат составил 56%, что очень неплохо, но все же, ближе к случайному угадыванию. Но интересно, что результаты ELIZA (23%) оказались лучше результатов GPT-4o (21%).
«Люди не смогли отличить людей от GPT-4.5 и LLaMa. И 4.5 даже был оценен как человек значительно чаще, чем настоящие люди!», — комментирует результаты исследования его ведущий автор, исследователь из Лаборатории языка и познания Калифорнийского университета в Сан-Диего Кэмерон Джонс.
Несмотря на то, что сам тест Тьюринга уже в значительной степени устарел для реальной оценки умственных способностей современных систем искусственного интеллекта, это исследование ярко демонстрирует, как передовые системы ИИ, обученные на большом количестве текстов, составленных человеком, научились реалистично нас имитировать. Даже если искусственный интеллект не понимает сути вопроса, он уже способен выдать достаточно правдоподобную версию ответа и заставить нас реально поверить, что перед нами человек.
Спецпроекты
Мийний пилотяг Dreame R10 Pro Aqua: швидкі насадки-швабри, підсвітка і 5 ступенів фільтрації
Розе
«Я думаю, что результаты дают больше доказательств того, что ИИ могут заменить людей в случаях непродолжительного взаимодействия, и никто не сможет этого заметить. Это может потенциально привести к автоматизации рабочих мест, улучшению процессов социальной инженерии и более общему общественному перевороту», — считает Кэмерон Джонс