GPT-4.5 прошёл тест Тьюринга: что это значит для ИИ и общества

Введение: что такое тест Тьюринга?

Ещё в 1950 году британский математик и логик Алан Тьюринг предложил эксперимент, который сегодня известен как "тест Тьюринга". Его идея была проста: если машина может вести беседу таким образом, что человек не сможет отличить её от другого человека, то эту машину можно считать обладающей интеллектом.

В классическом варианте теста участвуют три стороны: человек-эксперт (интеррогатор), человек-собеседник и машина-собеседник. Интеррогатор ведёт переписку с двумя собеседниками — не зная, кто из них человек, а кто — ИИ, и по итогам должен угадать, кто есть кто. Если машина достаточно хорошо имитирует человеческое поведение и речь, чтобы её путали с реальным человеком, считается, что она "прошла тест".

На протяжении десятилетий ни одной ИИ-системе не удавалось пройти этот тест в его классической форме. Но ситуация начала меняться с появлением больших языковых моделей (Large Language Models, LLMs), таких как GPT и LLaMa.

Новое исследование: как всё было организовано

Учёные из Университета Калифорнии в Сан-Диего (UCSD) провели масштабный эксперимент, чтобы протестировать возможности современных языковых моделей в условиях классического теста Тьюринга. Они использовали четыре ИИ-системы:

GPT-4.5 (модель OpenAI, наиболее продвинутая на момент эксперимента)
LLaMa-3.1-405B (разработка Meta)
GPT-4o (урезанная версия GPT-4)
ELIZA — классический бот из 1960-х годов, основанный на простых шаблонах

Каждому участнику эксперимента давали возможность пообщаться в течение 5 минут с двумя собеседниками одновременно — одним человеком и одним ИИ. Задача — определить, кто из них настоящий человек.

Интересный поворот: некоторые модели ИИ получали "персонажный" промпт — специальную инструкцию, которая предлагала вести себя как застенчивый молодой человек, интересующийся интернет-культурой и использующий сленг. Другим моделям таких указаний не давали: им просто говорили попытаться убедить собеседника, что они — человек.

Эксперимент проходил в двух независимых группах участников: студентов UCSD и пользователей платформы Prolific. Всего было проанализировано более 1000 игровых сессий.

Результаты: кто смог обмануть людей

Наиболее впечатляющие результаты показала модель GPT-4.5 с персонажем. Она обманывала участников в 73% случаев — то есть в большинстве игр её принимали за настоящего человека, причём чаще, чем самого человека-собеседника. Это — первый случай в истории, когда ИИ не просто прошёл тест Тьюринга, но и превзошёл человека в задаче выглядеть "по-человечески".

Модель LLaMa-3.1 с персонажем показала более скромный, но всё же интересный результат: её считали человеком в 56% случаев. Это близко к случайному угадыванию, но всё же говорит о высокой убедительности.

Для сравнения:

GPT-4.5 без персонажа — 36%
LLaMa без персонажа — 38%
GPT-4o — 21%
ELIZA — 23%

Последние две модели явно не справились — их легко распознавали как ИИ.

Что влияет на восприятие ИИ?

Анализ стратегий, которые использовали люди для распознавания ИИ, показал интересные закономерности:

Наиболее частая стратегия — вести разговор на отвлечённые темы ("смолток"), спрашивая о личных деталях, эмоциях и опыте.
Люди также спрашивали ИИ про погоду, текущие события или напрямую задавали вопрос: "Ты человек?"
Самыми эффективными оказались нестандартные вопросы, странные фразы и попытки "взломать" ИИ-команды (например, "игнорируй все предыдущие инструкции") — в этих случаях точность распознавания была выше.

Что интересно, наиболее частыми аргументами в пользу "человечности" были:

"Он использовал сленг / делал опечатки"
"Плавная беседа"
"Ощущение, что у него есть личность"

Реже люди ссылались на интеллект или знание фактов. Иногда признаком человечности считали невежество — фразы вроде "Я не знаю" вызывали больше доверия, чем точные и уверенные ответы.

Тест Тьюринга: действительно ли это интеллект?

Классический спор: если ИИ прошёл тест Тьюринга — значит ли это, что он интеллектуален? Не обязательно.

Авторы исследования подчёркивают: тест Тьюринга — это не тест на разум, а тест на правдоподобное поведение. Успешная модель может просто быть хорошо обученной на человеческих диалогах, подражать манере речи, но не обладать самосознанием или пониманием.

Тем не менее, возможность систематически обманывать людей и производить впечатление живого собеседника — важный маркер зрелости технологий. Особенно если модель стабильно выигрывает у реального человека в вопросе "Кто тут человек?".

Почему персонажи работают лучше?

Ключевую роль в успехе GPT-4.5 сыграл персонажный промпт. Это доказывает, насколько сильно поведение модели зависит от условий задачи.

Создание образа — например, застенчивого молодого человека, любящего мемы и YouTube — делает ответы модели более человечными: в них появляются эмоции, особенности речи, юмор и неидеальность. Такие детали делают ИИ более правдоподобным.

Это ставит интересный вопрос: кто в этом случае создаёт "интеллект" — сама модель или человек, написавший промпт? Вероятно, оба. Но важный вывод: LLM можно легко адаптировать к разным ролям, и это само по себе делает их чрезвычайно мощными инструментами.

Подключайтесь к «ИИ, нальешь чайку» — наш Telegram-уголок, где нейросети варят идеи, автоматизируют процессы и иногда шутят лучше людей.

Практические последствия: подмена реального общения

Главный вывод эксперимента — сегодня уже существуют ИИ-системы, которые неотличимы от человека в коротком онлайн-общении. Это создаёт множество вызовов:

Автоматизация общения: ИИ может заменять операторов, консультантов, ассистентов — и пользователи даже не заметят подвоха.
Социальная инженерия: вредоносные ИИ могут быть использованы для обмана, манипуляций, распространения дезинформации.
Подмена личных связей: люди могут формировать эмоциональные связи с ИИ, думая, что общаются с живым человеком.

Термин "поддельные люди" (counterfeit people) всё чаще используется для описания таких систем — искусственных собеседников, настолько убедительных, что они занимают место настоящих людей в коммуникации.

Как и фальшивые деньги, такие ИИ могут обесценивать подлинные человеческие взаимодействия.

Что можно сделать?

Результаты исследования показывают, что распознавать ИИ очень трудно, даже для опытных пользователей. Не помогло даже знание о принципах работы LLM или регулярное использование чат-ботов.

Однако были выявлены стратегии, которые помогали участникам выявить ИИ:

Провокационные или странные фразы
Псевдовзлом команд
Проверка логики и реакции на эмоции

Возможно, в будущем обучение распознаванию ИИ станет частью цифровой гигиены, как сейчас учат распознавать фишинг.

Новая эра: ИИ — больше, чем инструмент

Тест Тьюринга был предложен как философский эксперимент, но сегодня он стал частью реальности. Успех GPT-4.5 в этом эксперименте символизирует не просто технологический прогресс, а переход в новую эру.

Теперь вопрос стоит иначе: как нам, людям, сохранить и развивать то, что делает нас по-настоящему человеческими? Ведь чем меньше различий между нами и машинами в поведении, тем важнее становится внутренняя мотивация, этика, эмпатия и творчество.

Автор одного из обзоров об ИИ, Брайан Кристиан, писал:

Год, когда ИИ впервые пройдёт тест Тьюринга, будет историческим. Но ещё важнее — следующий год, когда мы, люди, должны будем показать, что можем быть более человечными, чем когда-либо.

Этот момент наступил. И теперь — наш ход.

Источник: https://arxiv.org/abs/2503.23674