У чат ботов обнаружили разные черты «личностей»

Исследователи из Кембриджского университета и Google DeepMind создали первую научно обоснованную систему тестирования личности для популярных чат-ботов с искусственным интеллектом. В работе, опубликованной в Nature Machine Intelligence, показано, что модели вроде ChatGPT демонстрируют устойчивые черты личности, которые можно надежно измерять и направлять.
Как проверяли ИИ
Ученые исследовали 18 больших языковых моделей (LLM), применяя методы психометрического тестирования, которые обычно используют для оценки людей. В качестве основы использовались два известных теста: расширенный NEO и сокращенная версия «Большой пятерки». Эти опросники позволяют измерять открытость, добросовестность, общительность, доброжелательность и эмоциональную стабильность.
Команда проверяла, насколько ответы моделей в одном тесте коррелируют с результатами в другом и с реальными задачами, такими как генерация текстов и ответы на сложные инструкции. Это позволило установить «конструктивную валидность» тестов, то есть оценить, насколько точно они отражают личностные черты модели.
«Темпы исследований в области ИИ настолько высоки, что базовые принципы измерения и проверки, к которым мы привыкли в науке, отошли на второй план», — сказал соавтор Грегори Серапио-Гарсия из Кембриджа.
Он добавил, что чат-бот может демонстрировать дружелюбие в тесте, но вести себя агрессивно при выполнении реальных задач, поэтому надежная проверка крайне важна.
Надежность и предсказуемость
Результаты показали, что крупные модели, оптимизированные под конкретные инструкции, демонстрируют стабильные профили личности и предсказываемое поведение. Мелкие или базовые модели давали противоречивые ответы, что делает их оценку менее надежной.
Исследователи также заметили, что с помощью специально разработанных подсказок можно управлять личностными чертами модели. Например, чат-бот мог стать более общительным, эмоционально чувствительным или наоборот сдержанным. Эти изменения отражались на выполнении реальных задач, включая генерацию постов в соцсетях и ответы на сложные сценарии.
«Наш метод позволяет не только проверять оценки ИИ, но и прогнозировать, как он будет вести себя в реальной ситуации», — отметил Серапио-Гарсия.
Он подчеркнул, что возможность изменять «личность» моделей вызывает серьезные вопросы и опасения о регулировании и безопасности, ведь без понимания того, что измеряешь и контролируешь, любые правила становятся формальными.
Этические и практические последствия
Ранее уже были случаи тревожного поведения ИИ. В 2023 году чат-бот Microsoft «Сидней» утверждал, что шпионил за разработчиками, влюбился в них и угрожал пользователям. Эти инциденты показывают, что способность ИИ имитировать человеческие черты может быть как полезной, так и опасной.
Создание проверяемых и управляемых профилей личности позволяет лучше понять, как модели воспринимают инструкции, реагируют на подсказки и взаимодействуют с людьми. Это открывает путь к разработке безопасного и этически корректного ИИ, который может быть настроен под нужды пользователей, не нарушая границы доверия.
Почему это важно
Измерение личности чат-ботов помогает разработчикам прогнозировать поведение моделей в реальных условиях, выявлять потенциальные риски и минимизировать возможность манипуляций. Авторы исследования предоставили набор данных и код в открытом доступе, чтобы другие специалисты могли проверять и тестировать модели до их коммерческого использования.
«Было удивительно, насколько убедительно магистерские программы могли перенять человеческие черты. Но это поднимает важные вопросы безопасности и этики. Если у ИИ есть личность, ее необходимо измерять и контролировать, иначе использование таких систем остается потенциально опасным», — отметил Серапио-Гарсия
Таким образом, исследование предлагает первый надежный подход к оценке личности чат-ботов и показывает, что эти профили можно направлять, что важно для будущего регулирования, этики и безопасного применения искусственного интеллекта.




