Новости

Нейросеть распознаёт объекты по устному описанию

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

Читайте также
Инцидент с модулем «Наука»: что это было?
Инцидент с модулем «Наука»: что это было?
«Роскосмос» принимал поздравления с успешной стыковкой, как вдруг все заверте…
COVID-19 снижает интеллект. Но возможно ли восстановить работу мозга после болезни?
COVID-19 снижает интеллект. Но возможно ли восстановить работу мозга после болезни?
Не можете вспомнить слово или имя знакомого после COVID-19? У ученых есть объяснение и рекомендации.
5 лайфхаков для изучения математики
5 лайфхаков для изучения математики
Это партнерский материал.