Нейросеть распознаёт объекты по устному описанию

Учёные из США разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

На сайте могут быть использованы материалы интернет-ресурсов Facebook и Instagram, владельцем которых является компания Meta Platforms Inc., запрещённая на территории Российской Федерации