Искусственный интеллект научили реконструировать городской пейзаж по звуку улиц
В Техасском университете в Остине (UT) нейросеть научили реконструировать городской пейзаж по звуку улиц. Это уникальное человеческое умение проверили в экспериментах, описанных в журнале Computers, Environment and Urban Systems.
Для обучения генеративного искусственного интеллекта использовались найденные в YouTube видео из городов Северной Америки, Азии и Европы. Ученые сделали из них 10-секундные аудиофрагменты и сопоставили им скриншоты.
Работу модели проверили на 100 аудиозаписях, из которых она сгенерировала изображения. Их сравнили со снятыми в этих местах реальными фото, используя как компьютерный анализ, так и субъективные суждения людей. На компьютере оценивали относительные пропорции зелени, зданий и неба между оригинальными и нарисованными изображениями, а людям было предложено правильно сопоставить одну из трех сгенерированных картинок с аудиообразцом.
Результаты показали хорошую корреляцию в распределении неба и зелени между искусственными и реальными изображениями и немного меньшую — в пропорциях зданий. Оценка с участием живых судий показала 80% точность соответствия фотографий звукам.
«Традиционно способность представлять себе обстановку по звукам считается уникальной человеческой способностью, отражающей нашу глубокую сенсорную связь с окружающей средой. Использование передовых методов ИИ, поддерживаемых большими языковыми моделями (LLM), показывает, что у машин есть потенциал для приближения к этому человеческому сенсорному опыту. Это говорит о том, что ИИ может выйти за рамки простого распознавания физического окружения, чтобы потенциально обогатить наше понимание субъективных переживаний человека в разных местах», — прокомментировал доцент кафедры географии и окружающей среды UT Юхао Канг.
На сгенерированных изображениях LLM отразила также архитектурные стили застройки и уровень освещения — солнечное небо, пасмурный день или ночь. По словам разработчиков, по звукам — например оживленному автомобильному трафику или стрекотанию сверчков — легко определить время суток.
«Когда вы закрываете глаза и слушаете, звуки вокруг вас рисуют картины в вашем сознании. Например, далекий гул транспорта становится оживленным городским пейзажем, а нежный шелест листьев переносит вас в безмятежный лес. Каждый звук сплетает яркий гобелен сцен, как по волшебству, в театре вашего воображения», — пояснил Канг.
По его мнению, у геопространственного ИИ большой потенциал для изучения взаимодействия людей с окружающей средой или поиска характеристик, которые придают городам их уникальную идентичность.