Синтезированный ИИ голос легче разобрать, чем живую речь — исследование

JASA: в шуме клонированный ИИ голос разборчивее оригинала на 20%
Результаты неожиданные даже для самих исследователей — ведь сравнивались оригиналы и клоны голосов одних и тех же людей.
Stock-Asso/Shutterstock/FOTODOM

Синтезированные голоса все прочнее входят в нашу жизнь — от цифровых помощников вроде Siri и Алисы до автоинформаторов в колл-центрах и автоответчиков. С развитием генеративного искусственного интеллекта появился новый тип искусственной речи — голосовые клоны, синтезированные всего по нескольким секундам аудиозаписи.

Авторы нового исследования в Journal of the Acoustical Society of America оценили разборчивость настоящих голосов и их ИИ-клонов. Они выяснили, что в шумной обстановке голосовые клоны понимать легче, чем людей.

Главное отличие голосовых клонов от традиционных синтезированных голосов — объем требуемого материала. Для создания такого голоса, как у Siri, диктору приходится провести в студии звукозаписи несколько часов. Клона же можно сделать всего из 10 секунд речи, что значительно расширяет и круг доступных голосов, и возможные сферы их применения.

Но вряд ли будет толк от этого клона, если его бормотание невозможно понять, резонно предположили исследователи — и проверили этот момент в серии экспериментов. Результат оказался неожиданным.

«Поначалу я думала, что голосовые клоны будут менее разборчивы, потому что непривычны слуху. Но оказалось, что они понятнее на целых 20%. Это было очень неожиданно. Небольшая часть нашей статьи как раз об этом эксперименте, а все остальное — это мы с коллегой пытаемся лихорадочно объяснить, что же именно делает клонов такими разборчивыми», — поделилась профессор Пэтти Аданк из Университетского колледжа Лондона, ведущий автор исследования.

Добровольцам предложили послушать человеческие голоса и их клоны, попросив оценить разборчивость. Убедившись, что клоны стабильно получают более высокие оценки, эксперимент повторили:

  • с пожилыми участниками — чтобы понять, влияет ли на результат снижение слуха;
  • с американцами (первая группа была британской) — чтобы оценить роль акцента;
  • а также использовали фильтр, имитирующий работу кохлеарного импланта.

Во всех случаях клоны неизменно оказывались понятнее.

Проанализировав более 100 акустических параметров, Аданк пришла к выводу, что разгадать этот феномен можно только в сотрудничестве со специалистами по системам «текст–речь» — путем адаптации одной из существующих систем клонирования с открытым исходным кодом.

«Я попробую воспроизвести этот эффект искусственно, изучая, как работают синтезаторы и как они с помощью цифровой обработки сигналов создают голоса. Это поможет мне хоть немного разобраться в происходящем», — заключила исследовательница.

Подписывайтесь и читайте «Науку» в MAX