Новости

Нейросеть распознаёт объекты по устному описанию

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

Читайте также
Как поймать темную материю
Как поймать темную материю
Темная материя есть даже в вашей комнате, но как ее поймать?
Венера — наша историческая родина?
Венера — наша историческая родина?
Благодаря находке фосфина в облаках Венеры, астрофизики обрели веру в возможность обнаружения внеземной жизни.
Секреты молодости от Павла Дурова — это научно или нет?
Секреты молодости от Павла Дурова — это научно или нет?
Можно ли верить и следовать семи правилам Дурова?