Framework позволяет человеку корректировать действия робота, используя обратную связь, которую он дал бы другому человеку

Framework позволяет человеку корректировать действия робота, используя обратную связь, которую он дал бы другому человеку
02:00, 11 Мар.

Представьте, что робот помогает вам мыть посуду. Вы просите его вытащить из раковины мыльную миску, но его захват немного промахивается. Используя новую структуру, разработанную исследователями MIT и NVIDIA, вы можете исправить поведение этого робота с помощью простых взаимодействий.

Метод позволит вам указать на миску или проследить траекторию к ней на экране, или просто подтолкнуть руку робота в нужном направлении. Работа опубликована на сервере препринтов arXiv.

В отличие от других методов исправления поведения робота, эта техника не требует от пользователей сбора новых данных и переобучения модели машинного обучения , которая питает мозг робота. Она позволяет роботу использовать интуитивную обратную связь от человека в реальном времени, чтобы выбрать возможную последовательность действий, которая максимально соответствует намерению пользователя.

Когда исследователи протестировали свою структуру, ее успешность оказалась на 21% выше, чем у альтернативного метода, не предполагавшего вмешательства человека.

В долгосрочной перспективе эта структура может позволить пользователю легче управлять роботом, обученным на заводе, для выполнения широкого спектра домашних задач, даже если робот никогда не видел их дома или находящихся в нем предметов.

«Мы не можем ожидать, что неспециалисты будут выполнять сбор данных и тонкую настройку модели нейронной сети. Потребитель будет ожидать, что робот будет работать сразу после установки, а если этого не произойдет, он захочет иметь интуитивно понятный механизм для его настройки.

Именно эту задачу мы и решили в этой работе», — говорит Феликс Яньвэй Ван, аспирант кафедры электротехники и информатики (EECS) и ведущий автор статьи arXiv .

Его соавторы — Лируй Ван, доктор философии и Илун Ду, старший автор Джули Шах, профессор аэронавтики и астронавтики Массачусетского технологического института и директор Группы интерактивной робототехники в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); а также Балакумар Сундаралингам, Сюнин Ян, Ю-Вэй Чао, Клаудия Перес-Д’Арпино, доктор философии и Дитер Фокс из NVIDIA.

Исследование будет представлено на Международной конференции по робототехнике и автоматизации.

Уменьшение несоосности Недавно исследователи начали использовать предварительно обученные генеративные модели ИИ для изучения «политики» или набора правил, которым следует робот для выполнения действия.

Генеративные модели могут решать множество сложных задач. Во время обучения модель видит только возможные движения робота, поэтому она учится генерировать допустимые траектории, по которым должен следовать робот.

Хотя эти траектории верны, это не значит, что они всегда совпадают с намерениями пользователя в реальном мире. Робота могли обучить хватать коробки с полки, не опрокидывая их, но он может не дотянуться до коробки на чьей-то книжной полке, если полка ориентирована не так, как он видел при обучении.

Чтобы преодолеть эти сбои, инженеры обычно собирают данные, демонстрирующие новую задачу, и заново обучают генеративную модель.

Это дорогостоящий и трудоемкий процесс, требующий опыта в области машинного обучения. Вместо этого исследователи Массачусетского технологического института хотели позволить пользователям управлять поведением робота во время развертывания, если он совершает ошибку.

Но если человек взаимодействует с роботом, чтобы исправить его поведение, это может непреднамеренно привести к тому, что генеративная модель выберет недопустимое действие.

Она может добраться до нужной пользователю коробки, но при этом сбросить книги с полки. «Мы хотим позволить пользователю взаимодействовать с роботом, не допуская подобных ошибок, поэтому мы получаем поведение, которое гораздо больше соответствует намерениям пользователя во время развертывания, но которое также является допустимым и осуществимым», — говорит Ван.

Их фреймворк достигает этого, предоставляя пользователю три интуитивно понятных способа корректировки поведения робота, каждый из которых имеет определенные преимущества.

Во-первых, пользователь может указать на объект, которым он хочет, чтобы робот манипулировал, в интерфейсе, который показывает вид с его камеры.

Во-вторых, он может проследить траекторию в этом интерфейсе, что позволяет ему указать, как он хочет, чтобы робот достиг объекта. В-третьих, он может физически переместить руку робота в направлении, в котором он хочет, чтобы он следовал.

«Когда вы сопоставляете двухмерное изображение окружающей среды с действиями в трехмерном пространстве, часть информации теряется. Физическое подталкивание робота — это самый прямой способ указать намерение пользователя без потери какой-либо информации», — говорит Ван.

Выборка для успеха Чтобы гарантировать, что эти взаимодействия не заставят робота выбрать недопустимое действие, например, столкновение с другими объектами, исследователи используют специальную процедуру выборки.

Эта техника позволяет модели выбирать действие из набора допустимых действий, которое наиболее точно соответствует цели пользователя. «Вместо того чтобы просто навязывать волю пользователя, мы даем роботу представление о намерениях пользователя, но позволяем процедуре выборки колебаться вокруг его собственного набора усвоенных моделей поведения», — объясняет Ван.

Этот метод выборки позволил исследовательской платформе превзойти другие методы, с которыми они ее сравнивали во время моделирования и экспериментов с настоящей роботизированной рукой на игрушечной кухне.

Хотя их метод не всегда позволяет сразу выполнить задачу, он дает пользователям преимущество в том, что они могут немедленно исправить робота, если видят, что он делает что-то неправильно, вместо того, чтобы ждать, пока он закончит, а затем давать ему новые инструкции.

Более того, после того, как пользователь несколько раз подтолкнет робота, пока он не возьмет правильную миску, он может зарегистрировать это корректирующее действие и включить его в свое поведение посредством будущего обучения.

Затем, на следующий день, робот сможет взять правильную миску без необходимости подталкивания.

«Но ключом к этому постоянному совершенствованию является предоставление пользователю возможности взаимодействовать с роботом, что мы здесь и продемонстрировали», — говорит Ван.

В будущем исследователи хотят повысить скорость процедуры отбора проб, сохранив или улучшив ее производительность. Они также хотят поэкспериментировать с генерацией политики робота в новых условиях.

Рубрика: Техно и Гаджеты. Читать весь текст на android-robot.com.