Умные очки научились предсказывать, куда посмотрит пользователь

Устройства дополненной реальности (AR), такие как умные очки, скоро смогут предугадывать, куда направит взгляд пользователь, и обеспечивать более насыщенный интерактивный опыт.
Большинство современных AR-устройств реагируют на действия пользователя постфактум, постоянно «догоняя» его взгляд. Новая разработка позволяет этим системам действовать на опережение, делая взаимодействие более плавным.
«Это дает AR-системе возможность предвидеть, с чем человек начнет взаимодействовать следующим и куда он переведет взгляд. Благодаря этому система может отрисовывать сцены заранее», — говорит ведущий автор исследования Фиона Райан из Технологического института Джорджии.
Хотя исследования по предсказанию взгляда пользователя на 2D-статичных изображениях уже ведутся, в новом исследовании эта задача впервые решена в 3D-обстановке. «Мы живем в трехмерном мире и постоянно перемещаемся в нем, меняя точку обзора. Поэтому предсказывать взгляд нужно именно в 3D, а не в 2D. То, что мы видим, — это траектория внимания человека в пространстве. Наша работа — первая, где предпринята попытка смоделировать такую траекторию», — подчеркивает Райан.
На стажировке в ее распоряжении оказался датасет Aria Digital Twin, который содержит 184 снятых от первого лица видео людей, взаимодействующих с предметами в реальной квартире. На этих данных была обучена нейросеть-трансформер, которая, основываясь на трех секундах прошлых движений глаз и головы, рассчитывает три секунды будущего.
«Мы выбрали именно этот набор данных, потому что он предоставляет высокоточную 3D-реконструкцию всего пространства. Это позволяет нам получать достоверные 3D-координаты взгляда. Мы можем отследить движение глаз и увидеть, где направление взгляда пересекается с окружающей средой», — объясняет исследовательница.
В демонстрационном видео показано, как программа отслеживает путь пользователя к столу, на котором стоит чашка. Когда пользователь берет чашку, система корректно предсказывает направление следующего поворота его головы.
«Когда мы смотрим на сцену, мы не воспринимаем ее целиком и во всех деталях одновременно. Мы фиксируем взгляд в определенных точках, и их последовательность зависит наших намерений. Если мы хотим взять чашку, мы сначала посмотрим на нее, а затем — на то место, куда собираемся ее поставить», — показывает Райан.
Пока система прогнозирует три секунды, в некоторых случаях — до десяти, и для текущих задач — проактивного рендеринга (отрисовки) — этого более чем достаточно.
«Сейчас мы заглядываем не так далеко, но было бы интересно исследовать более длительные окна прогноза. Думаю, что возможные варианты будущего будут расходиться очень быстро, поэтому мы пытаемся понять, что можно разумно предсказать на основе короткого отрезка движения и взгляда человека», — размышляет аспирантка.
В любом случае, эта ее работа — только демонстрация концепта. Впереди много новых экспериментов и новых применений технологии — благо идей хватает.
«Я думаю, будущие модели могли бы учитывать разные сценарии, чтобы сужать пространство возможностей. Иногда взгляд человека подолгу задерживается на одном объекте. Если мы будем знать, что именно он пытается сделать, можно точнее прогнозировать его внимание», — говорит Райан.
Одно из перспективных приложений — робототехника. «Эти разработки потенциально можно использовать для обучения алгоритмов, позволяя роботам имитировать активное человеческое восприятие. Если мы поймем, на что смотрит человек при выполнении задачи, это поможет роботу научиться делать то же самое», — добавляет она.
В июне она представит технологию на конференции IEEE по компьютерному зрению и распознаванию образов CVPR 2026 в Денвере.












