В «Сколтехе» нейросеть научили отфильтровывать «неуместные» сообщения чат-ботов

За общением программ будет следить другая программа.
Фото: Shutterstock

Чат-боты способны нанести репутационный ущерб компании-владельцу своими «неуместными» сообщениями. В «Сколтехе» предложили, чтобы за ботами следила нейросеть, модерируя подобные высказывания.

Исследование опубликовано в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing, коротко о нем рассказывается в пресс-релизе «Сколтеха».

Понятие неуместности гораздо шире, чем банальная грубость или токсичность. «Эта более тонкая категория охватывает более широкий круг ситуаций, в которых существует риск для репутации владельца чат-бота. Представьте, например, чат-бота, который любезно обсуждает с пользователем "лучшие способы покончить с собой". Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — пояснил руководитель исследования, старший преподаватель «Сколтеха» Александр Панченко.

Фото: Павел Одинев / «Сколтех»

Авторы работы обучили нейросеть находить и отфильтровывать подобные сообщения на чувствительные темы.

Сначала разработчики сформировали список из 18 чувствительных тем на основе рекомендаций специалистов МТС по правовым вопросам и связям с общественностью. В список вошли религия, политика, сексуальные меньшинства, самоубийство, порнография, преступления. 

Затем был организован проект, в котором участникам предложили опознать высказывания на чувствительные темы среди прочих сообщений, взятых с реальных сайтов. А на втором этапе — отметить сообщения, которые могут нанести репутационный ущерб автору. На сформированных таким образом наборах данных была обучена нейросеть.

Фото: Варвара Логачева / «Сколтех»

«Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения — довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями, — отметили исследователи. — В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными по версии респондентов».

Модели для распознавания неуместности и чувствительности высказываний и оба дата-сета (163 000 предложений с разметкой «уместно — неуместно» и 33 000 высказываний на чувствительные темы) выложены в открытый доступ.

«Наши модели можно усовершенствовать за счет ансамблей или альтернативных архитектур, — заключили авторы работы. — Один из интересных вариантов продолжения работы — распространить понятие уместности на другие языки. Чувствительность тем варьируется между разными культурами. У каждой культуры свое понимание неуместности, поэтому переход к другим языкам меняет ситуацию. Кроме того, можно расширить список из 18 чувствительных тем — мы не считаем его исчерпывающим».

В России улучшили технологию управления компьютером с помощью взгляда

ИИ оказался способен манипулировать человеком

На сайте могут быть использованы материалы интернет-ресурсов Facebook и Instagram, владельцем которых является компания Meta Platforms Inc., запрещённая на территории Российской Федерации