Найден способ заставить нейросеть работать без интернета

Инженеры научились сжимать большие языковые модели для их локального использования на ноутбуке или смартфоне
Инженеры научились сжимать большие языковые модели для их локального использования на ноутбуке или смартфоне.
FAMILY STOCK/Shutterstock/FOTODOM

Большие языковые модели (LLM), которые в обиходе называют нейросетями, все больше облегчают нам жизнь. Но их использование невозможно без стабильного доступа к интернету.

В Принстонском университете разработали технологию сжатия массивов данных LLM, которая позволит переносить их на локальное устройство пользователя — смартфон или ноутбук — для эксплуатации без подключения к серверу.

«Когда вы используете ChatGPT, любой ваш запрос отправляется на внутренние серверы OpenAI, которые обрабатывают все эти данные, и это очень дорого», — объясняет аспирант Стэнфордского инженерного факультета Раджарши Саха.

По его словам, единственный способ заставить работать LLM локально — сильно сжать используемые ею данные.

Исследователи разработали алгоритм сжатия CALDERA (Calibration Aware Low precision DEcomposition with low Rank Adaptation — калиброванная низкоразрядная декомпозиция с адаптацией низкого ранга), который представят на конференции по нейросетям в декабре. Подробности изложены в статье на сервере препринтов arXiv.

«Мы предложили универсальный алгоритм для сжатия больших наборов данных или больших матриц. А потом поняли, что в наши дни не только наборы данных, но и развертываемые модели также становятся большими. Поэтому мы можем также использовать наш алгоритм для сжатия этих моделей», — говорит Саха.

Это уже не первый способ сжатия LLM, его новизна — в сочетании двух свойств: «низкой точности» и «низкого ранга». «Используя оба этих свойства вместе, мы можем добиться гораздо большего сжатия, чем любой из этих методов по отдельности», — утверждает разработчик.

Алгоритм протестировали на двух больших языковых моделей с открытым исходным кодом. Нейросети после сжатия удовлетворительно справились с логическими задачами, а также отметили на вопросы, как отделить яичный белок от желтка и как заварить чашку чая.

Сжатую таким образом LLM можно использовать на смартфоне или ноутбуке без подключения к серверу. Это не только освобождает от привязки к интернету, но и позволяет точнее настраивать нейросеть под себя, а также улучшает конфиденциальность.

Запуск LLM на локальном устройстве даже с пониженной точностью вычислений может занять много памяти на некоторое время или заметно ускорить разряд батареи, предупредил Раджарши Саха.