В «Сколтехе» нейросеть научили отфильтровывать «неуместные» сообщения чат-ботов


Чат-боты способны нанести репутационный ущерб компании-владельцу своими «неуместными» сообщениями. В «Сколтехе» предложили, чтобы за ботами следила нейросеть, модерируя подобные высказывания.
Исследование опубликовано в сборнике Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing, коротко о нем рассказывается в пресс-релизе «Сколтеха».
Понятие неуместности гораздо шире, чем банальная грубость или токсичность. «Эта более тонкая категория охватывает более широкий круг ситуаций, в которых существует риск для репутации владельца чат-бота. Представьте, например, чат-бота, который любезно обсуждает с пользователем "лучшие способы покончить с собой". Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — пояснил руководитель исследования, старший преподаватель «Сколтеха» Александр Панченко.

Авторы работы обучили нейросеть находить и отфильтровывать подобные сообщения на чувствительные темы.
Сначала разработчики сформировали список из 18 чувствительных тем на основе рекомендаций специалистов МТС по правовым вопросам и связям с общественностью. В список вошли религия, политика, сексуальные меньшинства, самоубийство, порнография, преступления.
Затем был организован проект, в котором участникам предложили опознать высказывания на чувствительные темы среди прочих сообщений, взятых с реальных сайтов. А на втором этапе — отметить сообщения, которые могут нанести репутационный ущерб автору. На сформированных таким образом наборах данных была обучена нейросеть.
«Мы продемонстрировали, что, хотя чувствительность темы и неуместность сообщения — довольно тонкие понятия, завязанные на человеческой интуиции, они тем не менее поддаются детектированию нейросетями, — отметили исследователи. — В частности, наш классификатор в 89% случаев угадал, какие высказывания являются неуместными по версии респондентов».
Модели для распознавания неуместности и чувствительности высказываний и оба дата-сета (163 000 предложений с разметкой «уместно — неуместно» и 33 000 высказываний на чувствительные темы) выложены в открытый доступ.
«Наши модели можно усовершенствовать за счет ансамблей или альтернативных архитектур, — заключили авторы работы. — Один из интересных вариантов продолжения работы — распространить понятие уместности на другие языки. Чувствительность тем варьируется между разными культурами. У каждой культуры свое понимание неуместности, поэтому переход к другим языкам меняет ситуацию. Кроме того, можно расширить список из 18 чувствительных тем — мы не считаем его исчерпывающим».