Новости

Нейросеть распознаёт объекты по устному описанию

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

Читайте также
Чем штамм «Дельта» удивил ученых
Чем штамм «Дельта» удивил ученых
Более 1000 россиян умирают от коронавируса ежедневно. К чему приведут мутации SARS-CoV-2?
Новая российская вакцина заточена на борьбу с будущими штаммами коронавируса
Новая российская вакцина заточена на борьбу с будущими штаммами коронавируса
Штамм коронавируса «Дельта» снизил эффективность вакцин. Но на подходе новая, более универсальная.
Если сильно тоскуешь: технологии, которые позволяют разговаривать с мертвыми
Если сильно тоскуешь: технологии, которые позволяют разговаривать с мертвыми
Как устроено цифровое бессмертие: от переписки в чате до секс-кукол.