Илон Маск: у человечества кончились данные для обучения ИИ

Самый богатый человек в мире предупредил о возможном нейросетевом коллапсе.
Frederic Legrand - COMEO/Shutterstock/FOTODOM

У компаний, развивающих системы искусственного интеллекта, закончились данные для обучения своих моделей, заявил Илон Маск.

«Совокупная сумма человеческих знаний для обучения ИИ исчерпана. Это произошло, по сути, в прошлом году», — сказал он в разговоре с председателем компании Stagwell Марком Пенном.

Ранее с тем же предупреждением выступил бывший главный научный сотрудник OpenAI Илья Суцкевер.

Модели искусственного интеллекта, такие как GPT-4o, лежащая в основе чат-бота ChatGPT, поглощают огромные массивы данных, взятых из интернета, по которым они учатся выявлять закономерности в информации, что позволяет, например, предсказывать следующее слово в предложении и давать ответы на понятном человеческом языке.

По мнению Маска, разработчикам придется обратиться к «синтетическим» данным — то есть материалам, созданным самими большими языковыми моделями, и этот процесс уже происходит в условиях быстро развивающихся технологий.

По данным The Guardian, синтетические данные уже используют Meta (владелец Facebook и Instagram, в РФ запрещена) для тонкой настройки своей крупнейшей модели искусственного интеллекта Llama, Microsoft — для Phi-4, Google и OpenAI, стоящая за ChatGPT.

Маск, однако, предупредил об опасности использования синтетических данных. Обученный на них ИИ, и без того склонный к галлюцинациям (выдаче неточных или бессмысленных результатов), может стать вовсе бесполезным, поскольку «как узнать, это... галлюцинация ответа или реальный ответ».

Соображения миллиардера совпадают с выводами авторов недавнего исследования, предсказавших, что общедоступные данные для моделей ИИ могут закончиться уже к 2026 году, подтвердил директор по фундаментальному ИИ в британском Институте Алана Тьюринга Эндрю Дункан.

По его словам, чрезмерная зависимость от синтетических данных грозит «коллапсом модели» — термином, обозначающим критическое ухудшение качества работы LLM.

«Когда вы будете кормить модель синтетическими веществами, вы начинаете получать убывающую отдачу», — сказал он: возникает риск того, что результат будет предвзятым и лишенным креативности.

Исследователи из Стэнфордского университета и Университета Райса обнаружили проблемы в генеративных моделях искусственного интеллекта, таких как знаменитые ChatGPT или Midjourney. Модели, обучаемые на данных, сгенерированных ИИ, будь то тексты или изображения, имеют тенденцию «сходить с ума» после пяти циклов обучения.

Несколько лучше ситуация с русскоязычным контентом.

«Если мы говорим про отечественные разработки, то потенциал наших данных еще не исчерпан», — сообщил ТАСС доцент факультета программной инженерии и компьютерной техники ИТМО Александр Кугаевских.