Болтовня в баре: автоматическое распознавание речи превзошло живых людей

В новом исследовании сравнили точность распознавания речи двумя программами и людьми.
BAZA Production/Shutterstock/FOTODOM

Автоматическое распознавание речи (АРР) достигло невероятных успехов за последние несколько лет — особенно для таких распространенных языков, как английский. До 2020 года считалось, что машине не превзойти человека в этом его естественном умении — но, похоже, и тут системы искусственного интеллекта вырвались вперед.

В новом исследовании, результаты которого опубликованы в JASA Express Letters, сравнивали две популярные системы АРР — wav2vec 2.0 от Meta (запрещена в РФ) и Whisper от Open AI — с носителями британского английского языка. Распознавание речи оценивали в разных условиях: при ее произнесении в маске и без, в тишине или шуме бара.

Whisper large-v3 превзошла живых людей во всех тестовых условиях, кроме шумного бара, в которых показала такой же уровень.

«Это было впечатляюще, поскольку тестируемые предложения были представлены вне контекста, и было трудно предсказать какое-либо слово, основываясь на предыдущих», — признается доцент Элеанор Чодрофф с кафедры компьютерной лингвистики Цюрихского университета.

Тем не менее говорить о победе искусственного интеллекта над живым в части понимания речи преждевременно — системам АРР требуется глубокое обучение. Wav2vec 2.0 «прослушала» 960 часов аудиоданных на английском языке, Whisper — 75 лет, а та ее версия, что превзошла человека, — более 500 лет непрерывной речи.

«Люди способны достичь этой производительности всего за несколько лет. Значительные проблемы также остаются для автоматического распознавания речи почти на всех других языках», — констатирует Чодрофф.

В статье также описаны ошибки в понимании распознаваемой речи. Люди воспроизводили грамматически правильные предложения, но неполные, если не расслышали какое-то слово, Whisper заполняла пробелы неверной информацией, wav2vec генерировала бессмыслицу.