Создан радар для прослушивания разговоров по вибрациям телефона

Компактное устройство с ИИ улавливает разговор в радиусе до трех метров и выдает его стенограмму.
fizkes/Shutterstock/FOTODOM

Новый способ прослушивания телефона использует вибрации трубки от звуков динамика. В Университете штата Пенсильвания протестировали эту технологию, для чего построили прототип подслушивающего устройства. Результаты экспериментов представлены на 18-й конференции ACM по безопасности и конфиденциальности в беспроводных и мобильных сетях.

Как это работает?

«Когда мы разговариваем по телефону, мы обычно не замечаем вибрации корпуса, порождаемые звуками из динамика. Если уловить эти вибрации радаром и обработать алгоритмами машинного обучения, можно восстановить содержание разговора. Осознавая такую возможность, мы хотим помочь людям лучше понимать потенциальные риски», — пояснил ведущий автор исследования Сурёдай Базак, аспирант компьютерных наук.

Серийно выпускаемый миллиметровый радарный датчик (такие устройства применяют в беспилотных автомобилях, датчиках движения и сетях 5G) соединили с одноплатным компьютером и получили «жучок», предназначенный, как подчеркивают авторы, исключительно в исследовательских целях, чтобы предвосхитить возможные разработки злоумышленников. Для расшифровки вибраций в узнаваемую речь адаптировали Whisper — открытую модель распознавания речи на основе искусственного интеллекта (ИИ).

Работа с шумными данными

«За последние три года произошел огромный скачок в возможностях ИИ и открытых моделях распознавания речи. Но эти модели рассчитаны на чистую речь и повседневные сценарии, поэтому нам пришлось доработать их для работы с “зашумленными” радарными данными», — отметил Базак.

Whisper приспособили к расшифровке плохо различимой речи методом низкоранговой адаптации, который позволяет обойтись донастройкой всего 1% параметров модели вместо ее полного переобучения.

Эксперимент и результаты

Для анализа вибраций радарный датчик размещали на расстоянии до полуметра от телефона. Он улавливал малейшие колебания корпуса во время воспроизведения речи через динамик и передавал данные в адаптированную версию Whisper, которая распознавала текст с точностью до 60%. Ее можно повысить, если вручную корректировать расшифровку с учетом контекста, например, подставляя вероятные слова или фразы, когда известна тема разговора.

«Результатом стала расшифровка разговоров с ожидаемыми ошибками — это значительный прогресс по сравнению с нашей версией 2022 года, которая выдавала лишь отдельные слова. Но даже частичное совпадение, например, ключевых слов, уже полезно с точки зрения безопасности», — поделился Махант Гоуда, соавтор и научный руководитель Базака.

Меняя расстояние между телефоном и подслушивающим устройством, экспериментаторы установили, что вибрации улавливаются в радиусе до трех метров — но, конечно, с значительным ухудшением точности распознавания.

Фото: WISEC
Реализация атаки в реальных условиях и обработка двухсекундного сегмента радар-аудио.
a) Настройка атаки
b) Искажения от сигналов тела
c) Полосовая фильтрация
d) Пороговая обработка
Корректные речевые компоненты на (c) и (d) обведены красным.

Что дальше

Исследователи сравнили возможности своей модели с чтением по губам: хотя этот метод позволяет уловить лишь 30–40% слов, люди, владеющие им, используют контекст, чтобы понимать суть беседы.

«Так же, как читающие по губам могут восстанавливать разговор по ограниченной информации, наша модель в сочетании с контекстом позволяет частично восстановить телефонный разговор с расстояния в несколько метров. Цель нашей работы — показать, что такие инструменты теоретически могут использоваться злоумышленниками для удаленного подслушивания. Наши результаты подтверждают, что это технически возможно при определенных условиях, и мы надеемся, что это повысит осведомленность людей, чтобы они были осторожнее во время конфиденциальных разговоров», — заключил Базак.

Подписывайтесь и читайте «Науку» в Telegram