Создан робот, повторяющий мимику человека в реальном времени на 11 языках: видео

Ученые из Колумбийского университета представили новую технологию, которая позволяет роботам синхронизировать движения губ с аудиозаписью речи, создавая более естественные выражения лица. Результаты исследования опубликованы в журнале Science Robotics.
Система способна работать с несколькими языками, включая французский, китайский и арабский, даже если они не использовались при обучении модели. По словам исследователей, она превосходит пять существующих методов по точности воспроизведения движений рта по сравнению с эталонными видеозаписями.
«Разработанная система также смогла генерировать реалистичные движения губ на 11 языках, отличных от английского, с различной фонетической структурой», — отмечают авторы.
Применение технологии может быть особенно полезным в образовании и уходе за пожилыми людьми, при этом команда подчеркивает важность осторожного использования системы.
Движение губ в реальном времени
Современные роботы обычно реагируют на действия человека после их совершения, что выглядит неестественно. Новая система предсказывает выражения лица собеседника, создавая более динамичное и эмоционально реалистичное взаимодействие.
На базе платформы Eva создан робот Emo, оснащенный 26 актуаторами для лицевых движений (у Eva их 10). Магниты в лице Эмо деформируют сменную кожу, обеспечивая точное управление, а встроенные RGB-камеры фиксируют движения глаз и лица собеседника для предсказания эмоций в реальном времени. Робот использует две нейросети: одна управляет собственными выражениями, другая предугадывает мимику человека.
23 мотора отвечают за лицо, еще три — за движения шеи, что позволяет Emo синхронизировать выражения с собеседником почти мгновенно.
Как робот учится предугадывать мимику
Модель прогнозирует выражения на основе минимальных изменений лица, обучаясь на 970 видеороликах от 45 участников. Для оценки динамики мимики используется евклидово расстояние между ключевыми лицевыми точками, а пик активации определяется кадром с наибольшим ускорением изменений.
Система работает со скоростью 650 кадров в секунду, обратная модель управляет моторами со скоростью 8000 fps на MacBook Pro 2019, что позволяет роботу воспроизводить выражения всего за 0,002 секунды. Для сравнения, человеческая мимика длится примерно 0,841 ± 0,713 секунды, оставляя достаточно времени для синхронного исполнения.
Тестирование показало, что модель корректно предсказывает активацию движений в 72,2% случаев, с положительной прогностической ценностью 80,5%, обеспечивая высокую точность у разных участников.
Мимикрия сама по себе не гарантирует полноценного социального взаимодействия, но предсказание выражений лица является ключевым шагом к развитию эмоционального интеллекта роботов. По словам разработчиков, новая технология открывает перспективы для более естественного взаимодействия в обучении, здравоохранении и социальной робототехнике.









