Обучение роботов теории разума может улучшить сотрудничество

Обучение роботов теории разума может улучшить сотрудничество
19:00, 19 Май.

Природа полна животных, которые сотрудничают в больших количествах. Пчелы отмечают лучшие места для кормления и сообщают другим, где они находятся. Муравьи строят сложные иерархические дома, предназначенные для защиты. Стаи скворцов движутся по небу красивыми формациями, как будто они единое целое.

Однако ни одно из этих животных не сотрудничает так, как это делают люди. Коллективное поведение возникает из простых правил, которым следуют многие индивидуумы.

Однако люди обладают способностью сопереживать друг другу и предсказывать действия друг друга — черта, известная как Теория разума. Теперь группа исследователей из Университета Дьюка и Колумбийского университета выяснила, как использовать эту уникальную человеческую черту для быстрого обучения групп роботов выполнению сложных задач.

В то время как другие алгоритмы управления направляют роботов с помощью механизмов, больше похожих на поведение коллективного разума, эта недавно продемонстрированная структура под названием HUMAC обучает группы роботов тому, как сотрудничать, с помощью идей, предоставленных одним человеком-тренером.

Исследование опубликовано на сервере препринтов arXiv.

Исследование, принятое на Международной конференции IEEE по робототехнике и автоматизации (ICRA 2025) , которая пройдет с 19 по 23 мая 2025 года в Атланте, штат Джорджия, демонстрирует, как роботы могут научиться предугадывать действия товарищей по команде, адаптировать стратегии в реальном времени и решать задачи, требующие скоординированного коллективного интеллекта, подобного человеческому.

Эта работа может оказаться полезной для таких задач, как ликвидация лесных пожаров и выживание в дикой природе, где роботам необходимо взаимодействовать и сотрудничать в условиях ограничений, иерархической структуры команд, неопределенности окружающей среды и ограничений пропускной способности связи.

«Люди начинают развивать навык Теории разума примерно в возрасте четырех лет», — объяснил Боюань Чен, доцент кафедры машиностроения и материаловедения, электротехники и вычислительной техники и компьютерных наук в Университете Дьюка.

«Это позволяет нам интерпретировать и предсказывать намерения других, что позволяет возникать сотрудничеству.

Это важная способность, которой не хватает нашим нынешним роботам, чтобы они могли работать в команде с другими роботами и людьми.

Мы разработали HUMAC, чтобы помочь роботам учиться на том, как люди думают и координируют свои действия эффективным образом».

Существуют и другие подходы к обучению роботов сотрудничеству в значимых задачах. Один из них заключается в использовании обучения с подкреплением , когда роботы учатся, взаимодействуя в одной и той же среде с миллионами или миллиардами проб и ошибок, что неэффективно и не гарантирует успеха.

Другой метод включает в себя имитационное обучение от больших групп сотрудничающих экспертов-людей, что является дорогостоящим и непрактичным.

HUMAC использует радикально иной подход. Во время обучения структура позволяет одному человеку-оператору на короткое время брать под контроль разных роботов в команде, когда это необходимо, направляя их в ключевые стратегические моменты, подобно тому, как тренер дает целевые советы во время футбольного матча.

Эти взаимодействия показывают группам, как проводить сложные совместные тактики, такие как засады и окружение. После этих кратких демонстраций система встраивает человеческие вмешательства в алгоритмы роботов.

Основная идея заключается в том, что для того, чтобы роботы могли научиться сотрудничать, они должны научиться формировать ментальное представление, чтобы одновременно предсказывать планы своих товарищей по команде и действия игроков противника.

Другими словами, неявное встраивание всех решений игроков в их собственные планы — Теория разума. «Наша структура представляет будущее взаимодействия человека и ИИ, где лидерами являются люди», — сказал Чэнь.

«В этом случае один человек руководит большим количеством агентов быстрым и адаптивным способом, чего раньше не было».

Команда протестировала HUMAC в динамической игре в прятки, где команда из трех роботов-искателей пытается поймать команду из трех более быстрых роботов-пряток в ограниченной квадратной арене, заполненной случайными препятствиями, полагаясь исключительно на частичные визуальные наблюдения.

Эта настройка является сложной, поскольку несотрудничающие искатели, которые продолжают преследовать ближайших прячущихся, могут достичь только 36% успеха .

С помощью HUMAC тренер-человек выборочно берет под контроль отдельных роботов, когда это необходимо. Всего через 40 минут руководства команда роботов демонстрирует сильное совместное поведение, такое как засада и окружение.

В симуляциях процент успеха подскочил до 84%, и даже в физических испытаниях наземных транспортных средств процент успеха оставался стабильным на уровне 80%. «Мы наблюдали, как роботы начали вести себя как настоящие товарищи по команде», — сказал Чжэнгран Цзи, ведущий автор и аспирант в лаборатории Чена.

«Они предугадывали движения друг друга и координировались естественным образом, без явных команд». «За этим было действительно интересно наблюдать, и мы считаем, что это открывает множество возможностей для будущих команд роботов и команд человек-робот в различных приложениях», — добавил Чэнь.

Представьте себе рой дронов, координирующих свои действия в реальном времени для поиска выживших после стихийного бедствия, эффективно прочесывающих заваленные мусором территории без перекрытия путей.

Любое приложение, в котором небольшому количеству людей необходимо научить большое количество роботов сотрудничать, может использовать этот подход.

Исследователи уже работают над расширением HUMAC для более крупных команд роботов и более сложных задач, одновременно изучая более богатые методы взаимодействия для оптимизации и улучшения совместной работы человека и робота.

«ИИ — это не просто инструмент для людей, это товарищ по команде. Окончательная форма сверхинтеллекта не будет состоять только из ИИ или только из людей, это будет коллективный интеллект людей и ИИ», — сказал Чэнь.

«Точно так же, как люди эволюционировали, чтобы сотрудничать, ИИ станет более адаптивным, чтобы работать вместе друг с другом и с нами. HUMAC — это шаг к такому будущему».

Рубрика: Технологии. Читать весь текст на android-robot.com.