Создано кольцо для распознавания языка жестов — видео

Устройство на большом пальце переводит речь на амслене в текст в режиме реального времени.
Louis DiPietro

В Корнеллском университете разработали микросонарное кольцо с искусственным интеллектом для распознавания речи на американском языке жестов (ASL, или амслен). Технология будет представлена на конференции Ассоциации вычислительной техники по вопросам взаимодействия человека и компьютера в Йокогаме в конце апреля.

SpellRing может применяться для ввода текста в компьютер или смартфон с помощью пальцевого алфавита, который используется в ASL для написания слов, не имеющих соответствующих жестов, — таких как имена собственные, названия и технические термины. В дальнейшем своем развитии, к которому есть несомненный потенциал, это первое в своем роде устройство сможет отслеживать целые слова и предложения, выраженные жестами.

«Многие другие технологии, распознающие пальцевой алфавит в ASL, не были приняты сообществом глухих и слабослышащих, потому что оборудование громоздкое и непрактичное. Мы старались создать одно кольцо, которое сможет улавливать все тонкие и сложные движения пальцев в ASL», — пояснил аспирант информатики Хёнчхоль Лим из Колледжа вычислительной и информационной науки Корнеллского университета.

Оснащенное микрофоном и динамиком кольцо размером меньше пятирублевой монеты надевают на большой палец. Оно определяет движения пальцев методом эхо-локации, а положение руки — встроенным миниатюрным гироскопом.

Собственный алгоритм глубокого обучения обрабатывает жесты и предсказывает буквы пальцевого алфавита ASL в реальном времени с точностью, сопоставимой с многими существующими системами, требующими большего оборудования.

Испытания SpellRing с участием 20 опытных и начинающих пользователей ASL, «произносивших» рукой более 20 000 слов различной длины, показали точность распознавания от 82% до 92% в зависимости от сложности понятий.

По признанию разработчиков, самым трудным было обучение кольца жестам, потому что даже в исполнении одного человека они хоть немного, но отличаются.

«Различия между буквами могут быть значительными, их сложно уловить», — признался доцент кафедры информатики Чэн Чжан.

SpellRing основан на предыдущей разработке тех же авторов, предполагавшей кольца на всех пальцах, и стало последним в ряду гаджетов для интерпретации положений рук в виртуальной реальности, верхней части тела в 3D, распознавания беззвучной речи, взгляда и мимики.

Реклама
Реклама

Следующим этапом будет интеграция микросонарной системы в очки для отслеживания движений верхней части тела и мимики, чтобы создать более комплексную систему перевода ASL.

«Глухие и слабослышащие люди используют для ASL не только руки — они используют мимику, движения верхней части тела и положения головы, — объяснил Лим. — Амслен — это очень сложный, комплексный визуальный язык».