Алгоритм игры ИИ в го пригодился для создания робота-домработницы

Science Robotics: для управления роботами оптимизировали алгоритм игры в го
Алгоритм выбора ходов в шахматах и го оптимизировали — и приспособили к управлению роботами в реальном мире.
Phonlamai Photo/Shutterstock/FOTODOM

В 2018 году программа AlphaZero от Google DeepMind научилась играть в шахматы, сеги и го, используя машинное обучение и специальный алгоритм для определения лучших ходов в игре. В Калифорнийском технологическом институте (Caltech) разработали действующую по схожим принципам систему управления планированием и принятием решений для автономных роботов, движущихся в реальном мире — например, помощников по хозяйству пожилым людям.

«Наш алгоритм фактически разрабатывает стратегию, а затем исследует все возможные и важные движения — и выбирает лучшее из них с помощью динамического моделирования, как в играх с участием роботов. Прорывное новшество здесь заключается в том, что мы вывели очень эффективный способ поиска оптимального безопасного движения, которое типичные методы оптимизации никогда не найдут», — объясняет профессор кафедры управления и динамических систем Caltech Сун-Джо Чунг.

Ученые назвали свою разработку методом спектрального поиска по дереву расширения (SETS) и описали ее в статье в декабрьском номере Science Robotics, удостоившейся анонса на обложке.

SETS использует теорию управления и линейную алгебру для поиска естественных движений, которые максимально используют возможности роботизированной платформы в физических условиях.

Концепция основана на поиске по дереву Монте-Карло (MCTS) — алгоритме принятия решений, который лежит в основе вышеупомянутого AlphaZero от Google. В игре в го MCTS представляет собой ветвящуюся структуру, в которой узлы — это возможные ходы, которые выбираются по критерию их оценки в очках.

По словам аспиранта Caltech Джона Латропа, проблема этого дерева в том, что при решении задач в реальном мире оно разрастается экспоненциально. «Для некоторых задач попытка смоделировать каждую отдельную возможность, а затем выяснить, какая из них лучшая, займет годы, может быть, сотни лет», — констатирует он.

В SETS найден компромисс между исследованием (моделированием неизведанных решений) и эксплуатацией (изучением зарекомендовавших себя путей).

«Этот компромисс между исследованием и эксплуатацией и поиском в рамках естественных движений позволяет нашим роботам думать, перемещаться и адаптироваться к новой информации в режиме реального времени», — говорит постдокторант в области машиностроения и гражданского строительства Caltech Бенджамин Ривьер.

SETS может выполнить поиск по всему дереву примерно за десятую долю секунды. За это время он способен смоделировать от тысяч до десятков тысяч возможных траекторий, выбрать лучшую — и действовать.

Алгоритм универсален и применим к любой роботизированной платформе. Его проверили в управлении:

  • квадрокоптером, уворачивавшимся от воздушных шаров;
  • гусеничнsм транспортным средством на узкой и извилистой трассе;
  • парой космических аппаратов, захватывавших объект.
Фото: Science Robotics (2024)
(A) Метод SETS — новый алгоритм планирования на основе дерева для динамических систем;
(B–F) Примеры применения SETS в разных сферах робототехники, включая наземные, воздушные и космические.

Сейчас студенты адаптируют разработку к автомобилю Indy, который примет участие в гонках Indy Autonomous Challenge на выставке бытовой электроники в Лас-Вегасе 9 января.