ИИ дайджест

GPT-4.5 прошёл тест Тьюринга: что это значит для ИИ и общества

Новости ИИ
GPT-4.5 прошёл тест Тьюринга

Введение: что такое тест Тьюринга?

Ещё в 1950 году британский математик и логик Алан Тьюринг предложил эксперимент, который сегодня известен как "тест Тьюринга". Его идея была проста: если машина может вести беседу таким образом, что человек не сможет отличить её от другого человека, то эту машину можно считать обладающей интеллектом.
В классическом варианте теста участвуют три стороны: человек-эксперт (интеррогатор), человек-собеседник и машина-собеседник. Интеррогатор ведёт переписку с двумя собеседниками — не зная, кто из них человек, а кто — ИИ, и по итогам должен угадать, кто есть кто. Если машина достаточно хорошо имитирует человеческое поведение и речь, чтобы её путали с реальным человеком, считается, что она "прошла тест".
На протяжении десятилетий ни одной ИИ-системе не удавалось пройти этот тест в его классической форме. Но ситуация начала меняться с появлением больших языковых моделей (Large Language Models, LLMs), таких как GPT и LLaMa.

Новое исследование: как всё было организовано

Учёные из Университета Калифорнии в Сан-Диего (UCSD) провели масштабный эксперимент, чтобы протестировать возможности современных языковых моделей в условиях классического теста Тьюринга. Они использовали четыре ИИ-системы:
  • GPT-4.5 (модель OpenAI, наиболее продвинутая на момент эксперимента)
  • LLaMa-3.1-405B (разработка Meta)
  • GPT-4o (урезанная версия GPT-4)
  • ELIZA — классический бот из 1960-х годов, основанный на простых шаблонах
Каждому участнику эксперимента давали возможность пообщаться в течение 5 минут с двумя собеседниками одновременно — одним человеком и одним ИИ. Задача — определить, кто из них настоящий человек.
Интересный поворот: некоторые модели ИИ получали "персонажный" промпт — специальную инструкцию, которая предлагала вести себя как застенчивый молодой человек, интересующийся интернет-культурой и использующий сленг. Другим моделям таких указаний не давали: им просто говорили попытаться убедить собеседника, что они — человек.
Эксперимент проходил в двух независимых группах участников: студентов UCSD и пользователей платформы Prolific. Всего было проанализировано более 1000 игровых сессий.

Результаты: кто смог обмануть людей

Наиболее впечатляющие результаты показала модель GPT-4.5 с персонажем. Она обманывала участников в 73% случаев — то есть в большинстве игр её принимали за настоящего человека, причём чаще, чем самого человека-собеседника. Это — первый случай в истории, когда ИИ не просто прошёл тест Тьюринга, но и превзошёл человека в задаче выглядеть "по-человечески".
Модель LLaMa-3.1 с персонажем показала более скромный, но всё же интересный результат: её считали человеком в 56% случаев. Это близко к случайному угадыванию, но всё же говорит о высокой убедительности.
Для сравнения:
  • GPT-4.5 без персонажа — 36%
  • LLaMa без персонажа — 38%
  • GPT-4o — 21%
  • ELIZA — 23%
Последние две модели явно не справились — их легко распознавали как ИИ.

Что влияет на восприятие ИИ?

Анализ стратегий, которые использовали люди для распознавания ИИ, показал интересные закономерности:
  1. Наиболее частая стратегия — вести разговор на отвлечённые темы ("смолток"), спрашивая о личных деталях, эмоциях и опыте.
  2. Люди также спрашивали ИИ про погоду, текущие события или напрямую задавали вопрос: "Ты человек?"
  3. Самыми эффективными оказались нестандартные вопросы, странные фразы и попытки "взломать" ИИ-команды (например, "игнорируй все предыдущие инструкции") — в этих случаях точность распознавания была выше.
Что интересно, наиболее частыми аргументами в пользу "человечности" были:
  • "Он использовал сленг / делал опечатки"
  • "Плавная беседа"
  • "Ощущение, что у него есть личность"
Реже люди ссылались на интеллект или знание фактов. Иногда признаком человечности считали невежество — фразы вроде "Я не знаю" вызывали больше доверия, чем точные и уверенные ответы.

Тест Тьюринга: действительно ли это интеллект?

Классический спор: если ИИ прошёл тест Тьюринга — значит ли это, что он интеллектуален? Не обязательно.
Авторы исследования подчёркивают: тест Тьюринга — это не тест на разум, а тест на правдоподобное поведение. Успешная модель может просто быть хорошо обученной на человеческих диалогах, подражать манере речи, но не обладать самосознанием или пониманием.
Тем не менее, возможность систематически обманывать людей и производить впечатление живого собеседника — важный маркер зрелости технологий. Особенно если модель стабильно выигрывает у реального человека в вопросе "Кто тут человек?".

Почему персонажи работают лучше?

Ключевую роль в успехе GPT-4.5 сыграл персонажный промпт. Это доказывает, насколько сильно поведение модели зависит от условий задачи.
Создание образа — например, застенчивого молодого человека, любящего мемы и YouTube — делает ответы модели более человечными: в них появляются эмоции, особенности речи, юмор и неидеальность. Такие детали делают ИИ более правдоподобным.
Это ставит интересный вопрос: кто в этом случае создаёт "интеллект" — сама модель или человек, написавший промпт? Вероятно, оба. Но важный вывод: LLM можно легко адаптировать к разным ролям, и это само по себе делает их чрезвычайно мощными инструментами.
Подключайтесь к «ИИ, нальешь чайку» — наш Telegram-уголок, где нейросети варят идеи, автоматизируют процессы и иногда шутят лучше людей.

Практические последствия: подмена реального общения

Главный вывод эксперимента — сегодня уже существуют ИИ-системы, которые неотличимы от человека в коротком онлайн-общении. Это создаёт множество вызовов:
  • Автоматизация общения: ИИ может заменять операторов, консультантов, ассистентов — и пользователи даже не заметят подвоха.
  • Социальная инженерия: вредоносные ИИ могут быть использованы для обмана, манипуляций, распространения дезинформации.
  • Подмена личных связей: люди могут формировать эмоциональные связи с ИИ, думая, что общаются с живым человеком.
Термин "поддельные люди" (counterfeit people) всё чаще используется для описания таких систем — искусственных собеседников, настолько убедительных, что они занимают место настоящих людей в коммуникации.
Как и фальшивые деньги, такие ИИ могут обесценивать подлинные человеческие взаимодействия.

Что можно сделать?

Результаты исследования показывают, что распознавать ИИ очень трудно, даже для опытных пользователей. Не помогло даже знание о принципах работы LLM или регулярное использование чат-ботов.
Однако были выявлены стратегии, которые помогали участникам выявить ИИ:
  • Провокационные или странные фразы
  • Псевдовзлом команд
  • Проверка логики и реакции на эмоции
Возможно, в будущем обучение распознаванию ИИ станет частью цифровой гигиены, как сейчас учат распознавать фишинг.

Новая эра: ИИ — больше, чем инструмент

Тест Тьюринга был предложен как философский эксперимент, но сегодня он стал частью реальности. Успех GPT-4.5 в этом эксперименте символизирует не просто технологический прогресс, а переход в новую эру.
Теперь вопрос стоит иначе: как нам, людям, сохранить и развивать то, что делает нас по-настоящему человеческими? Ведь чем меньше различий между нами и машинами в поведении, тем важнее становится внутренняя мотивация, этика, эмпатия и творчество.
Автор одного из обзоров об ИИ, Брайан Кристиан, писал:
Год, когда ИИ впервые пройдёт тест Тьюринга, будет историческим. Но ещё важнее — следующий год, когда мы, люди, должны будем показать, что можем быть более человечными, чем когда-либо.
Этот момент наступил. И теперь — наш ход.
Источник: https://arxiv.org/abs/2503.23674