Синтезированный ИИ голос легче разобрать, чем живую речь — исследование

Синтезированные голоса все прочнее входят в нашу жизнь — от цифровых помощников вроде Siri и Алисы до автоинформаторов в колл-центрах и автоответчиков. С развитием генеративного искусственного интеллекта появился новый тип искусственной речи — голосовые клоны, синтезированные всего по нескольким секундам аудиозаписи.
Авторы нового исследования в Journal of the Acoustical Society of America оценили разборчивость настоящих голосов и их ИИ-клонов. Они выяснили, что в шумной обстановке голосовые клоны понимать легче, чем людей.
Главное отличие голосовых клонов от традиционных синтезированных голосов — объем требуемого материала. Для создания такого голоса, как у Siri, диктору приходится провести в студии звукозаписи несколько часов. Клона же можно сделать всего из 10 секунд речи, что значительно расширяет и круг доступных голосов, и возможные сферы их применения.
Но вряд ли будет толк от этого клона, если его бормотание невозможно понять, резонно предположили исследователи — и проверили этот момент в серии экспериментов. Результат оказался неожиданным.
«Поначалу я думала, что голосовые клоны будут менее разборчивы, потому что непривычны слуху. Но оказалось, что они понятнее на целых 20%. Это было очень неожиданно. Небольшая часть нашей статьи как раз об этом эксперименте, а все остальное — это мы с коллегой пытаемся лихорадочно объяснить, что же именно делает клонов такими разборчивыми», — поделилась профессор Пэтти Аданк из Университетского колледжа Лондона, ведущий автор исследования.
Добровольцам предложили послушать человеческие голоса и их клоны, попросив оценить разборчивость. Убедившись, что клоны стабильно получают более высокие оценки, эксперимент повторили:
- с пожилыми участниками — чтобы понять, влияет ли на результат снижение слуха;
- с американцами (первая группа была британской) — чтобы оценить роль акцента;
- а также использовали фильтр, имитирующий работу кохлеарного импланта.
Во всех случаях клоны неизменно оказывались понятнее.
Проанализировав более 100 акустических параметров, Аданк пришла к выводу, что разгадать этот феномен можно только в сотрудничестве со специалистами по системам «текст–речь» — путем адаптации одной из существующих систем клонирования с открытым исходным кодом.
«Я попробую воспроизвести этот эффект искусственно, изучая, как работают синтезаторы и как они с помощью цифровой обработки сигналов создают голоса. Это поможет мне хоть немного разобраться в происходящем», — заключила исследовательница.




