Новости

Нейросеть распознаёт объекты по устному описанию

Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта, которая учится идентифицировать объекты на изображениях на основе их устного описания.

Модель выделяет в реальном времени соответствующие области описываемого изображения, основываясь на звуковом сопровождении. В отличие от современных технологий распознавания речи (Siri и Google Voice) система не требует текстовых транскрипций и описательных примеров. Разработчики хотели сделать распознавание речи более естественным, используя дополнительные сигналы и информацию, которой пользуются люди и к которой алгоритмы машинного обучения обычно не имеют доступа. Модель учится так же, как ребёнок, который видит предметы и называет их. В качестве материала нейросеть использует записанные речевые описания и объекты на необработанных изображениях.

В настоящее время модель может распознать только несколько сотен разных слов и типов объектов. Но исследователи надеются, что в один прекрасный день их комбинированная технология распознавания сможет сэкономить бесчисленное количество часов ручного труда и открыть новые возможности искусственного интеллекта по распознаванию речи и изображений.

Фото: Christine Daniloff

Читайте также
Что, если бы у человека был хвост: подборка научных мемов
Что, если бы у человека был хвост: подборка научных мемов
Смысл существования человека с точки зрения вороны и другое.
Научный перевод. Как спорить со сторонниками теорий заговора
Научный перевод. Как спорить со сторонниками теорий заговора
Как спорить с конспирологами? Не кричите на них и не смейтесь над ними.
Упавшее яблоко или плагиат: как Ньютон открыл закон всемирного тяготения
Упавшее яблоко или плагиат: как Ньютон открыл закон всемирного тяготения
Все тела во Вселенной притягиваются друг к другу. Вот почему вас так тянет к холодильнику!