Наделение ИИ ограничениями человеческой памяти улучшило усвоение им языка

TACL: внедрение в ИИ забывания улучшило качество языкового моделирования
Эксперимент с генеративной языковой моделью подтвердил давнюю гипотезу когнитивной науки.
Ole.CNX/Shutterstock/FOTODOM

Ограничение памяти искусственного интеллекта по образцу человеческой может парадоксальным образом помочь ему лучше осваивать язык — таковы результаты эксперимента, с подробностями которого можно ознакомиться в журнале Transactions of the Association for Computational Linguistics.

Работа опирается на давнюю гипотезу когнитивной науки: ограниченность человеческой памяти может не мешать, а, наоборот, способствовать изучению языка. Когда мы воспринимаем речь, точные формы слов и предложений быстро забываются. И это ограничение, как ни странно, может помогать сосредоточиться на повторяющихся закономерностях и усваивать абстрактные грамматические обобщения.

Чтобы проверить, применим ли этот принцип к ИИ, исследователи взяли уменьшенную версию GPT-2 и наделили ее способностью к забыванию, получив в результате, как они это назвали, «трансформер с мимолетной памятью». Модель обучили языку на детском наборе данных BabyLM.

«По качеству и объему этот датасет приблизительно соответствует материалу, который усваивает начинающий говорить ребенок. Это позволило провести контролируемое сравнение моделей с ограничением памяти и без него в условиях, приближенных к реальным», — объясняет психолингвист Миха Хайлброн, руководивший проектом.

Опыты проводили на суперкомпьютере Snellius в Нидерландах. Результаты последовательно показали пользу затухания памяти — на всех этапах обучения ИИ, способный к забыванию, давал более высокие показатели как в чисто языковом моделировании, так и в целенаправленных тестах на знание синтаксиса, по сравнению со стандартными трансформерами.

«Эти преимущества проявлялись только тогда, когда затухание памяти сочеталось с коротким буфером „эхоической памяти“ (так у человека называется кратковременная слуховая память. — Прим. ред.), который сохранял последние три-семь слов в неизменном виде. По-видимому, именно сочетание этих механизмов — немедленного доступа к локальной информации и постепенного забывания более далеких словоформ — и усиливает обучающий эффект», — говорит Хайлброн.

Таким образом, авторы проверили на реальных моделях признанную уже классической гипотезу одного из основоположников коннекционизма Джеффри Элмана, которую он выдвинул еще в 1993-м, и доказали, что неограниченная память вовсе не оптимальна для изучения языка.

Вместе с тем, наученная забывать модель не стала более похожей на человека в отношении восприятия языка, добавляет соавтор исследования Абишек Тамма из Амстердамского университета.

«Хотя мимолетная память улучшает изучение языка, она ухудшает способность моделей прогнозировать запинки в чтении человеком на основе показателя предсказуемости. Этот результат противоречит распространенной закономерности, когда улучшение языкового моделирования сопровождается более точным предсказанием обработки речи мозгом», — уточняет он.

Объяснений этому парадоксальному открытию пока не нашли. Ясно пока одно — искусственный и живой интеллект обрабатывают языковые данные по-разному.

Подписывайтесь и читайте «Науку» в MAX