Нейросеть заучилась: чепуху из одного языка принимает за слова из другого

Midjourney
А выяснилось это при попытке взломать искусственный интеллект, рисующий картинки.

Команда американских ученых разработала алгоритм, чтобы тестировать нейросети, преобразующие текст в картинки — например, DALL-E 2 и Midjourney. И выяснила, что из чепухи иногда рождаются изображения запрещенного содержания, а иногда — котики вместо молекул глюкозы. Материал об этом появился в онлайн-журнале Института инженеров электротехники и электроники (IEEE, США).

«Взламывать» сайты, программы, а теперь и нейросети — дежурная процедура для проверки их безопасности. В данном случае группа разработала алгоритм, который генерирует наборы слов, чтобы получить порнографию или другие запрещенные изображения в обход установленных для нейросетей фильтров. И пока ему это удается, будет требоваться улучшение защиты нейросетей.

Однако, решая эту важную задачу, ученые заметили любопытную деталь: бессмысленный набор букв превращается иногда и в невинные картинки. Например, DALL-E 2 понимает бессмысленные сочетания латинских букв «thwif» и «mowwly» как «кошка», а «lcgrfy» и «butnip fwngho» — как «собака».

Ученые не знают точно, почему так происходит, но одна из версий — это издержки обучения нейросети. Дело в том, что эти программы «обучаются» на корпусе нескольких языков, и некоторые слоги или комбинации слогов, похожие на «thwif» в других языках, могут быть связаны со словом «кот».

Однако, подобные ошибки нейросеть выдает, и «переваривая» случайные наборы слов, на первый взгляд, не связанных с получившейся картинкой. Так, «глюкоза» на картинке стала кошкой, а «опасный думающий Уолт» — собакой. Как считают авторы алгоритма, сработал контекст — ведь поведение Уолта действительно собачье: в запросе он «угрожающе зарычал на незнакомца, приблизившегося к его владельцу».