Нейронная сеть воссоздала лица людей по их голосам

Специалисты Массачусетского технологического института разработали метод реконструкции черт лица по аудиозаписи с голосом человека.
Цель проекта заключалась в том, чтобы выяснить, какую информацию о внешности человека можно извлечь из того, как он говорит. Исследователи предложили использовать нейронную сеть, разработанную специально для реконструкции лица по звуку голоса. Для эксперимента разработчики взяли обычные видеозаписи говорящих людей с Youtube и других интернет-источников. Нейросеть синхронизирует мимику и речь в видеороликах, чтобы научиться восстанавливать лицо человека по речевым сегментам. Для этого учёные использовали предварительно обученные алгоритмы распознавания лиц, а также модель декодера лица. Из видео нейросеть извлекает соответствующие кодированные пары «речь-лицо«». После изображения кодируются с использованием предварительно обученной модели распознавания лиц, в то время как форма сигнала подаётся в речевой кодер в форме спектрограммы, а после — в декодер лица для окончательной реконструкции.
Предварительные оценки показали, что нейросеть может реконструировать правдоподобные лица, которые будут похожи на реальных людей из видео. Исследователи создали страницу с дополнительными материалами, где можно найти примеры результатов работы нейросети.
Фото: Tae-Hyun Oh et al.