Ученые научились транслировать 4D-видео через обычный интернет: видео

Раньше объемное видео можно было посмотреть только в специальных лабораториях и на выставках — один 30-минутный ролик занимал терабайты данных и совершенно не подходил для обычных компьютеров и телевизоров.
Иллюстрация: ChatGPT

Ученые из Университета Брауна (США) разработали новый метод PackUV, который решает проблему огромного размера объемного видео, делая его пригодным для обычной потоковой передачи. Исследование представлено на конференции IEEE/CVF по компьютерному зрению и распознаванию образов.

Что такое объемное видео

Объемное видео — это принципиально новый формат. Съемка ведется одновременно с десятков синхронизированных камер, окружающих сцену. Алгоритмы затем воссоздают полную трехмерную модель пространства вместе со временем — получается 4D-видео. Зритель может свободно перемещаться внутри сцены, выбирать любой ракурс и угол обзора, словно он сам находится внутри происходящего.

Такая технология особенно интересна для спорта, кино, виртуальной реальности и образования. Например, можно посмотреть футбольный матч с позиции игрока на поле или оказаться на сцене во время концерта.

Главная проблема

До сих пор объемное видео оставалось слишком «тяжелым» для массового использования. Один 30-минутный ролик мог занимать терабайты данных, а его формат был несовместим с обычными видеосервисами и устройствами. Поэтому такие записи демонстрировались в основном на выставках, в VR-студиях и исследовательских лабораториях.

«С помощью объемного видео вы можете исследовать сцену практически с любой желаемой точки обзора. Оно захватывает три измерения пространства, а также время, превращая его в 4D-видео. В нашей работе мы, по сути, преобразуем всю эту 4D-сцену в обычное видео, которое можно транслировать через интернет», — объясняет Аашиш Рай, аспирант факультета компьютерных наук Университета Брауна, который возглавил работу

Как нашли новое решение

4D-видео
Фото: Brown University

Исследователи из лаборатории интерактивного 3D-зрения и обучения под руководством доцента Шринатха Шридхара предложили метод PackUV. Он основан на современной технологии 3D Gaussian Splatting (гауссово разбрызгивание). Суть метода заключается в том, что трехмерная сцена представляется в виде миллионов размытых точек — гауссиан, каждая из которых кодирует цвет, форму и прозрачность.

Главная инновация заключается в умном способе «спроецировать» всю эту сложную четырехмерную сцену на обычные 2D-изображения. Получается структурированное многомасштабное представление, которое можно эффективно сжимать стандартными видеокодеками, используемыми Netflix, YouTube и большинством других платформ.

Дополнительные улучшения

Новый метод лучше справляется с длинными видеороликами. Он разбивает запись на короткие фрагменты и в начале каждого заново «настраивает» отслеживание объектов. Благодаря этому система лучше справляется с ситуациями, когда объект временно исчезает из виду или появляется посреди сцены.

Для тестирования ученые собрали один из самых больших наборов многоракурсного видео. Записи включают людей, играющих в баскетбол и пиклбол, готовящих еду и занимающихся столярными работами. Все данные сделали открытыми для других исследователей.

Перспективы технологии

«Объемное видео позволит создавать цифровые двойники реального мира», — отмечает Шринатх Шридхар.

Такая технология может найти применение в спорте, кинематографе, дистанционном обучении, производстве и медицине. Пока PackUV — это научный прорыв, а не готовый потребительский продукт. Однако он значительно приближает момент, когда просмотр объемного видео станет таким же привычным, как обычное видео сегодня.

Подписывайтесь и читайте «Науку» в MAX