Представлен первый нейроинтерфейс для редактирования изображений силой мысли

Китайские исследователи представили LoongX — технологию, которая позволяет редактировать изображения с помощью сигналов мозга. Это открытие, опубликованное на сервере arXiv, обещает сделать творчество доступным для всех, особенно для людей с ограниченными возможностями.
Обычно редактирование изображений — трудоемкий процесс. Нужно уметь работать с инструментами и определенные навыки. Но что, если вы не можете говорить или двигаться? Новая технология решает эту проблему. Теперь люди с нарушениями моторики или речи смогут творить, просто представляя, что хотят изменить.
Как это работает?
Анализ ошибок нейроинтерфейса при редактировании изображений по мыслям на фото выше
На изображении представлены три типичных ситуации, когда система LoongX дает сбой:
- Слишком сложные или фантазийные образы
Пример: пользователь мысленно представляет «длинноногое космическое существо». Такие запросы система интерпретирует неточно, потому что они сильно абстрактны или не имеют четкой визуальной привязки. - Недостаточно конкретные команды
Пример: человек хочет «заменить объект», но не уточняет, что именно оставить, например — нужно ли сохранять фон. Без таких деталей система теряет контекст и вносит лишние изменения. - Нетипичные размеры изображений
Пример: панорамный снимок, который отличается от привычных форматов. Система, обученная на стандартных пропорциях, не справляется с такими случаями и выдает искаженный результат.
LoongX использует интерфейс мозг–компьютер (BCI) — систему, которая считывает сигналы вашего мозга и тела. Носимая гарнитура улавливает:
-
ЭЭГ — электрическую активность мозга (как он «думает»);
-
fNIRS — кровоток в голове (какая именно область мозга активнее);
-
PPG — ваш пульс (как вы реагируете);
-
движения головы — куда вы смотрите.
Простыми словами, это как пульт управления. К примеру, вы смотрите на картинку, думаете «хочу закат вместо неба» — и нейроинтерфейс улавливает это желание через ваши сигналы. Компьютер обрабатывает их и меняет изображение.
Технология опирается на:
-
набор данных L-Mind — тысячи примеров, где люди думали о редактировании, а система записывала их мозговые сигналы.
-
модули CS3 и DGF — они «фильтруют» сигналы и собирают их в понятную команду, как переводчик ваших мыслей.
-
DiT — это «художник», который рисует изменения на основе того, что вы задумали.
«LoongX открывает новые возможности для творчества, позволяя людям с ограничениями выражать себя через искусство, не прикасаясь к клавиатуре или мыши», — отметил ведущий исследователь.
На изображении показано, как система справляется с задачами редактирования в трех вариантах: а)только с помощью текстовой команды; б) с помощью сигналов мозга; в) помощью комбинации речи и мозговых сигналов.
LoongX объединяет разные сигналы — мозг, пульс, движения — чтобы точно понять, чего вы хотите. Это как оркестр, где каждый инструмент важен. Модель заранее «учится» на данных, чтобы связать ваши мысли с действиями.
Эксперименты показывают: она работает не хуже, чем если бы вы написали команду текстом. А если добавить голосовую команду, результат становится еще лучше — мозг и речь вместе дают максимальную точность.
Особенно важны сигналы из затылочной части мозга (где мы «видим») и фронтальной (где принимаем решения). Технологию протестировали на 12 участниках — пока немного, но результаты уже впечатляют.
Есть ли минусы?
Да, пока что:
-
нужна специальная гарнитура — не всем удобно.
-
сложные идеи вроде «добавить крылатого дракона» иногда теряются.
-
требуется больше данных и испытаний на больших выборках.
«Представьте: вы лежите, думаете о картине — и она оживает на экране. Для нас это начало новой эры, где мозг и технологии работают вместе, делая искусство доступным каждому», — отметили авторы исследования









