Новости

Нейросеть распознаёт объекты по устному описанию

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

Читайте также
Специальная теория относительности за пять минут
Специальная теория относительности за пять минут
У Анахорета есть всего пять минут, чтобы заинтересовать девушку
«Википедии» — 20 лет: вся правда о важнейшем сайте интернета
«Википедии» — 20 лет: вся правда о важнейшем сайте интернета
Говорим с одним из основателей, администратором и автором народной интернет-энциклопедии.
Математический секрет красоты
Математический секрет красоты
Числа Фибоначчи — что это и для чего они нужны?