Почему голосовые помощники не всегда нас понимают

Среди пользователей ИИ есть категории, которые нейросеть понимает хуже других. Кто в черном списке?
LALAKA/Shutterstock/FOTODOM

Идея создания умного помощника, способного вести полноценный разговор, как в фильме «Она» (2013), давно будоражит умы. Но спустя более десяти лет реальность пока далека от фантазий и способности искусственного интеллекта все еще ограничены, сообщает портал Techxplore.

Проблемы распознавания речи

Если вы когда-либо сталкивались с цифровым ботом, который не мог понять ваши слова, вам знакома главная слабость ИИ — неспособность справляться с многообразием человеческой речи.

Автоматические системы хуже распознают акценты, диалекты, необычные интонации, голосовые особенности женщин, пожилых людей или детей.

Почему так происходит?

Системы искусственного интеллекта работают на основе вероятностных предположений: вместо того чтобы учитывать контекст и дополнительные сигналы (например, тон голоса), они чаще либо ошибаются, либо просто «сдаются».

Например, если система обучена на данных от типичных носителей определенного языка, она будет плохо понимать тех, кто говорит на этом же языке, но с другим диалектом, смешивает языки или говорит с акцентом.

ИИ становится частью ключевых сфер: от здравоохранения до экстренных служб. Представьте: вы звоните 112 после аварии, но бот-помощник не может понять вас с первого раза. Это увеличивает риск для жизни в критические моменты. Ошибки в распознавании происходят из-за недостаточного разнообразия данных, на которых обучаются языковые модели.

Кроме того, существует еще одна проблема. Системы ИИ часто «сглаживают» речь, стирая акценты, что закрепляет стереотипы о том, какая речь считается правильной. Некоторые компании даже предлагают инструменты для изменения акцента в реальном времени, чтобы соответствовать стандартам крупных клиентов, таких как международные колл-центры.

Для пользователей, говорящих на других языках, ситуация еще сложнее. Английский — самый проработанный язык в ИИ, но даже в нем системы лучше справляются с более распространенными диалектами. Другие языки, особенно редкие, практически не учитываются.

Как исправить ситуацию

Чтобы голосовые технологии стали универсальными, разработчикам нужно больше времени и ресурсов для обучения моделей с учетом разных акцентов, языков и особенностей речи. Программы должны становиться «сочувствующими слушателями», которые учитывают контекст и не требуют от пользователя подстраиваться под алгоритм.

Человеческий фактор по-прежнему важен: многие предпочли бы общаться с живым оператором, особенно в стрессовых ситуациях. И хотя ИИ уже достиг больших успехов, он пока остается далеким от понимания всей сложности человеческой речи.