В обработке речи живым и искусственным интеллектом обнаружилось неожиданное сходство

NeuroImage: мозг предсказывает слово до того, как оно прозвучит, за время до 0,1 с
Открытие стало крупным шагом к нейроморфному ИИ.
Ole.CNX/Shutterstock/FOTODOM

Мозг предсказывает слово, которое прозвучит, за время от 0 до 100 мс. По тому же принципу обрабатывают речь большие языковые модели (LLM).

Оснащен ли мозг врожденными грамматическими структурами сразу после появления человека на свет или же язык развивается на основе практики и опыта? Ставить точку в этом вопросе на стыке нейробиологии и психолингвистики ученые пока не спешат. Тем более что появление мощных LLM придало этим дискуссиям новый импульс.

Очередную попытку разобраться предприняли в Университетской клинике Эрлангена. Там провели эксперимент, участники которого слушали аудиокнигу, лежа в сканере МЭГ. Результаты приведены в журнале NeuroImage.

«В нашем исследовании мы объединили естественную, непрерывную речь аудиокниги с одновременной записью электроэнцефалограммы (ЭЭГ) и магнитоэнцефалограммы (МЭГ) и напрямую сопоставили мозговую активность участников с предсказательными вероятностями больших языковых моделей — и все это с временны́м разрешением в считанные миллисекунды», — рассказывает нейробиолог Патрик Краусс, один из руководителей исследования.

Измерения выявили два типа активности.

  • Престимульная возникает в интервале 0–100 мс до того, как слово прозвучит, в левых лобно-височных долях, которые, как считается, отвечают за антиципацию — способность психики к прогнозированию. И чем более предсказуемо слово — тем эта активность сильнее.
  • Постстимульную зарегистрировали теменные электроды ЭЭГ и левые лобные сенсоры МЭГ. Это N400 — известный маркер семантической обработки. Тут все наоборот: чем более неожиданным оказалось слово — тем выше амплитуда этого компонента. Реакция наступает примерно через полсекунды.

«Это позволило нам доказать, что мозг активно прогнозирует речь. Эти прогнозы можно измерить, и они следуют закономерностям, сходным с современными языковыми моделями», — говорит Краусс.

Этого стоило ожидать, ведь LLM работают на нейросетях, построенных по образу человеческого мозга. И все же степень сходства удивила исследователей.

«Нас особенно удивило, что мозг и языковые модели не просто демонстрируют сходные предсказания — они внутренне организуют язык сопоставимым образом», — объясняет специалист.

В обработке речи живым и искусственным интеллектом обнаружилось неожиданное сходство
Фото: NeuroImage

Результаты исследования подтверждают ключевые гипотезы когнитивной нейробиологии и одновременно объясняют, почему языковые модели ИИ столь эффективны в целом ряде приложений.

«То, что мозг и языковые модели приходят к сходным результатам, еще не означает автоматически, что они работают одинаково. Однако это может указывать на аналогичные принципы обработки информации», — подчеркивает еще один руководитель исследования Ахим Шиллинг, возглавляющий группу по нейро-ИИ в Гейдельбергском университете.

«Интересно, почему две столь разные системы демонстрируют столь идентичные способы организации языка — и где находятся границы этого сходства», — добавляет Краусс.

Поняв в дальнейшем, насколько устойчивы обнаруженные принципы, можно будет попробовать перенести их на конкретные приложения. «Когда мы лучше поймем, как мозг и языковые модели представляют и прогнозируют язык, это в долгосрочной перспективе может привести к новым подходам в диагностике, персонализированной терапии, интерфейсах „мозг-компьютер“ или созданию более прозрачных систем искусственного интеллекта», — поделились авторы.

Подписывайтесь и читайте «Науку» в MAX