Компьютер научили распознавать эмоции в речи

Сотрудники факультета информатики, математики и компьютерных наук Нижегородского филиала ВШЭ создали автоматическую систему, способную определять эмоции по голосу. Их доклад был представлен на крупной международной конференции «Neuroinformatics-2017».

Компьютер давно и весьма успешно преобразует речь в текст. Однако эмоциональная составляющая, важная для передачи смысла, остаётся упущенной. Например, на один и тот же вопрос «Всё в порядке?», человек может ответить «Конечно!» с разными интонациями: спокойно, с вызовом, жизнерадостно и пр. Это будут совсем разные реакции.

Нейронные сети – это связанные друг с другом процессоры, способные к обучению, анализу и обобщению. Эта умная система превосходит традиционные алгоритмы: взаимодействие человека и компьютера становится более интерактивным.

Анастасия Попова, Александр Рассадин и Александр Пономаренко из ВШЭ обучили нейронную сеть распознавать восемь различных эмоций: «нейтральный», «спокойный», «счастливый», «грустный», «злой», «испуганный», «отвращение», «удивление». В 70% случаев компьютер правильно определил эмоцию, рассказали исследователи.

Они преобразовывали звук в изображения – спектрограммы. Это позволило работать со звуком методами, применяемыми для распознавания изображений. В исследовании использовалась свёрточная нейронная сеть глубокого обучения с архитектурой VGG-16.

Наиболее успешно программа различает нейтральные и спокойные интонации. А вот счастье и удивление распознаются не всегда, отмечают ученые. Счастье часто воспринимается как страх и печаль, а удивление – как отвращение.  

Наука
08.11.2017 14:26:18