Искусственный интеллект научили реконструировать городской пейзаж по звуку улиц

В США разработана модель ИИ для преобразования звукового ландшафта в визуальный
Искусственный интеллект обзавелся еще одним уникальным человеческим умением — представлять в воображении окружающую обстановку.
bluefish_ds/Shutterstock/FOTODOM

В Техасском университете в Остине (UT) нейросеть научили реконструировать городской пейзаж по звуку улиц. Это уникальное человеческое умение проверили в экспериментах, описанных в журнале Computers, Environment and Urban Systems.

Для обучения генеративного искусственного интеллекта использовались найденные в YouTube видео из городов Северной Америки, Азии и Европы. Ученые сделали из них 10-секундные аудиофрагменты и сопоставили им скриншоты.

Работу модели проверили на 100 аудиозаписях, из которых она сгенерировала изображения. Их сравнили со снятыми в этих местах реальными фото, используя как компьютерный анализ, так и субъективные суждения людей. На компьютере оценивали относительные пропорции зелени, зданий и неба между оригинальными и нарисованными изображениями, а людям было предложено правильно сопоставить одну из трех сгенерированных картинок с аудиообразцом.

Результаты показали хорошую корреляцию в распределении неба и зелени между искусственными и реальными изображениями и немного меньшую — в пропорциях зданий. Оценка с участием живых судий показала 80% точность соответствия фотографий звукам.

«Традиционно способность представлять себе обстановку по звукам считается уникальной человеческой способностью, отражающей нашу глубокую сенсорную связь с окружающей средой. Использование передовых методов ИИ, поддерживаемых большими языковыми моделями (LLM), показывает, что у машин есть потенциал для приближения к этому человеческому сенсорному опыту. Это говорит о том, что ИИ может выйти за рамки простого распознавания физического окружения, чтобы потенциально обогатить наше понимание субъективных переживаний человека в разных местах», — прокомментировал доцент кафедры географии и окружающей среды UT Юхао Канг.

На сгенерированных изображениях LLM отразила также архитектурные стили застройки и уровень освещения — солнечное небо, пасмурный день или ночь. По словам разработчиков, по звукам — например оживленному автомобильному трафику или стрекотанию сверчков — легко определить время суток.

«Когда вы закрываете глаза и слушаете, звуки вокруг вас рисуют картины в вашем сознании. Например, далекий гул транспорта становится оживленным городским пейзажем, а нежный шелест листьев переносит вас в безмятежный лес. Каждый звук сплетает яркий гобелен сцен, как по волшебству, в театре вашего воображения», — пояснил Канг.

По его мнению, у геопространственного ИИ большой потенциал для изучения взаимодействия людей с окружающей средой или поиска характеристик, которые придают городам их уникальную идентичность.

Фото: University of Texas at Austin