Ученые научились транслировать 4D-видео через обычный интернет: видео

Ученые из Университета Брауна (США) разработали новый метод PackUV, который решает проблему огромного размера объемного видео, делая его пригодным для обычной потоковой передачи. Исследование представлено на конференции IEEE/CVF по компьютерному зрению и распознаванию образов.
Что такое объемное видео
Объемное видео — это принципиально новый формат. Съемка ведется одновременно с десятков синхронизированных камер, окружающих сцену. Алгоритмы затем воссоздают полную трехмерную модель пространства вместе со временем — получается 4D-видео. Зритель может свободно перемещаться внутри сцены, выбирать любой ракурс и угол обзора, словно он сам находится внутри происходящего.
Такая технология особенно интересна для спорта, кино, виртуальной реальности и образования. Например, можно посмотреть футбольный матч с позиции игрока на поле или оказаться на сцене во время концерта.
Главная проблема
До сих пор объемное видео оставалось слишком «тяжелым» для массового использования. Один 30-минутный ролик мог занимать терабайты данных, а его формат был несовместим с обычными видеосервисами и устройствами. Поэтому такие записи демонстрировались в основном на выставках, в VR-студиях и исследовательских лабораториях.
«С помощью объемного видео вы можете исследовать сцену практически с любой желаемой точки обзора. Оно захватывает три измерения пространства, а также время, превращая его в 4D-видео. В нашей работе мы, по сути, преобразуем всю эту 4D-сцену в обычное видео, которое можно транслировать через интернет», — объясняет Аашиш Рай, аспирант факультета компьютерных наук Университета Брауна, который возглавил работу
Как нашли новое решение
Исследователи из лаборатории интерактивного 3D-зрения и обучения под руководством доцента Шринатха Шридхара предложили метод PackUV. Он основан на современной технологии 3D Gaussian Splatting (гауссово разбрызгивание). Суть метода заключается в том, что трехмерная сцена представляется в виде миллионов размытых точек — гауссиан, каждая из которых кодирует цвет, форму и прозрачность.
Главная инновация заключается в умном способе «спроецировать» всю эту сложную четырехмерную сцену на обычные 2D-изображения. Получается структурированное многомасштабное представление, которое можно эффективно сжимать стандартными видеокодеками, используемыми Netflix, YouTube и большинством других платформ.
Дополнительные улучшения
Новый метод лучше справляется с длинными видеороликами. Он разбивает запись на короткие фрагменты и в начале каждого заново «настраивает» отслеживание объектов. Благодаря этому система лучше справляется с ситуациями, когда объект временно исчезает из виду или появляется посреди сцены.
Для тестирования ученые собрали один из самых больших наборов многоракурсного видео. Записи включают людей, играющих в баскетбол и пиклбол, готовящих еду и занимающихся столярными работами. Все данные сделали открытыми для других исследователей.
Перспективы технологии
«Объемное видео позволит создавать цифровые двойники реального мира», — отмечает Шринатх Шридхар.
Такая технология может найти применение в спорте, кинематографе, дистанционном обучении, производстве и медицине. Пока PackUV — это научный прорыв, а не готовый потребительский продукт. Однако он значительно приближает момент, когда просмотр объемного видео станет таким же привычным, как обычное видео сегодня.











