В мире заканчивается запас данных для искусственного интеллекта. К чему это приведет?

Эксперты рассказали, как можно исправить ситуацию.
Shutterstock

Исследователи предупреждают, что в ближайшем будущем может закончиться запас данных для обучения искусственного интеллекта. Это может замедлить совершенствование моделей ИИ, особенно языковых, и в целом изменить вектор развития перспективной области. 

Для обучения мощных, точных и качественных алгоритмов ИИ требуется большое количество данных. Например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 млрд слов. Алгоритм стабильной диффузии, на котором основаны многие нейросети для создания изображений, включая DALL-E, Lensa и Midjourney, обучен на наборе данных LIAON-5B, состоящем из 5,8 млрд пар «изображение-текст». Если алгоритм обучается на недостаточном количестве данных, он будет выдавать неточные и некачественные результаты.

Качество обучающих данных также имеет большое значение. Низкокачественные данные, такие как сообщения в соцсетях или фотографии низкого разрешения, легко получить, но их недостаточно для обучения высокоэффективных моделей ИИ. Тексты, взятые из социальных сетей, могут быть необъективными или предвзятыми, содержать дезинформацию и даже незаконный контент.

Именно поэтому разработчики ИИ стремятся использовать высококачественный контент: тексты из книг, интернет-статей, научных работ, «Википедии», отфильтрованный веб-контент. Индустрия обучает системы ИИ на все более обширных наборах данных, поэтому сегодня у нас есть такие высокоэффективные модели, как ChatGPT или DALL-E 3. Однако запасы данных в интернете растут гораздо медленнее, чем наборы данных, используемые для обучения искусственного интеллекта.

Исследователи предсказывают, что при сохранении нынешних тенденций в обучении ИИ высококачественные текстовые данные закончатся уже до 2026 года. Низкокачественные языковые данные будут исчерпаны в 2030-2050 годах, низкокачественные изображения — в 2030-2060 годах.

По оценкам аудиторско-консалтинговой группы PwC, к 2030 году ИИ может принести мировой экономике до 15,7 трлн долл. Однако нехватка пригодных для использования данных может затормозить развитие отрасли. Впрочем, ситуация может оказаться не такой плохой, как прогнозируется

Исправить ситуацию можно, к примеру, за счет совершенствования алгоритмов, позволяющих более эффективно использовать уже имеющиеся данные. Вполне вероятно, что в ближайшие годы разработчики смогут обучать высокопроизводительные системы ИИ, используя меньший объем данных и, возможно, меньшую вычислительную мощность. 

Другой вариант — использование ИИ для создания синтетических данных. Иными словами, разработчики могут просто генерировать необходимые им данные, адаптируя их к конкретной модели ИИ. В нескольких проектах уже используется синтетический контент, часто получаемый из сервисов генерации данных, таких как Mostly AI. Похоже, в будущем это станет более распространенным явлением.

Разработчики также ищут контент за пределами бесплатного онлайн-пространства, например, в крупных издательствах и оффлайновых хранилищах. Миллионы текстов, созданных в печати до появления интернета, могут стать новым источником данных для обучения ИИ после опубликования в цифровом виде.

Получить новые данные можно будет и за счет сделок с правообладателями текстового контента. К примеру, News Corp, одна из крупнейших в мире таких компаний, недавно сообщила, что ведет переговоры о заключении договоров с разработчиками ИИ. Такие сделки заставят разработчиков платить за обучающие данные, хотя до сих пор они в основном бесплатно собирали их из интернета, пишет The Conversation.