Новости

Нейронная сеть воссоздала лица людей по их голосам

Специалисты Массачусетского технологического института разработали метод реконструкции черт лица по аудиозаписи с голосом человека.

Цель проекта заключалась в том, чтобы выяснить, какую информацию о внешности человека можно извлечь из того, как он говорит. Исследователи предложили использовать нейронную сеть, разработанную специально для реконструкции лица по звуку голоса. Для эксперимента разработчики взяли обычные видеозаписи говорящих людей с Youtube и других интернет-источников. Нейросеть синхронизирует мимику и речь в видеороликах, чтобы научиться восстанавливать лицо человека по речевым сегментам. Для этого учёные использовали предварительно обученные алгоритмы распознавания лиц, а также модель декодера лица. Из видео нейросеть извлекает соответствующие кодированные пары «речь-лицо«». После изображения кодируются с использованием предварительно обученной модели распознавания лиц, в то время как форма сигнала подаётся в речевой кодер в форме спектрограммы, а после — в декодер лица для окончательной реконструкции.

Предварительные оценки показали, что нейросеть может реконструировать правдоподобные лица, которые будут похожи на реальных людей из видео. Исследователи создали страницу с дополнительными материалами, где можно найти примеры результатов работы нейросети.

Фото: Tae-Hyun Oh et al.

Читайте также
Специальная теория относительности за пять минут
Специальная теория относительности за пять минут
У Анахорета есть всего пять минут, чтобы заинтересовать девушку
«Википедии» — 20 лет: вся правда о важнейшем сайте интернета
«Википедии» — 20 лет: вся правда о важнейшем сайте интернета
Говорим с одним из основателей, администратором и автором народной интернет-энциклопедии.
Математический секрет красоты
Математический секрет красоты
Числа Фибоначчи — что это и для чего они нужны?