TidyBot: Personalized Robot Assistance with Large Language Models

About_work·2024년 8월 20일
0

1.개요

  • 로봇이 가정 내에서 개인화된 도움을 제공할 수 있도록 하는 방법에 대해 연구
  • 특히, 로봇이 방을 정리할 때 사용자의 선호에 따라 물건을 적절한 장소에 배치하는 작업을 다룹니다.

1.1. 주요 내용 요약:

    1. 접근 방법:
    • 이 연구에서는 대형 언어 모델(LLM)의 요약 기능을 활용하여,
      • 소수의 예시를 통해 일반화된 사용자 선호를 학습
    • 사용자가 몇 가지 예시를 제공하면, LLM이 이를 요약하여 일반화된 규칙을 도출하고, 이 규칙을 새로운 상황에 적용할 수 있도록 합니다.
    1. 기여:
    • 이 연구는 LLM 요약 기능을 로봇 공학에 적용하여, 최소한의 데이터로도 사용자 맞춤형 도움을 제공할 수 있음을 입증하였고, 이를 위한 새로운 벤치마크 데이터셋도 공개했습니다.

3. method

  • 우리는 소수의 예시로부터 사용자의 선호를 일반화하기 위해 기성 대형 언어 모델(LLM)의 요약 기능을 사용
  • 아래에서는 물건을 보관할 장소(수납장소) 선택조작 방법 선택에 대해 LLM을 사용해 개인화된 규칙을 도출하는 방법과,
  • 이 접근법을 실제 가정 내 정리 작업을 수행하는 모바일 로봇 시스템에 어떻게 적용하는지 설명

3.1. Personalized receptacle selection

  • 우리 시스템은 먼저 사용자의 개인 선호를 반영한 몇 가지 물건 배치 예시를 받습니다.
  • 예를 들어, 사용자가 노란 셔츠와 흰 양말은 서랍에, 진보라색 셔츠와 검은 셔츠는 옷장에 두고 싶다고 지정할 수 있습니다.
  • 우리는 이러한 예시를 LLM에 제공하여 물건을 어디에 두어야 하는지에 대한 개인화된 규칙을 도출
  • 구체적으로, LLM은 (i) 예시를 요약하여 일반적인 규칙을 도출한 후, (ii) 이 요약을 사용하여 새로운 물건을 어디에 둘지 결정
  • 최근 연구(Zeng et al., 2022; Singh et al., 2022)를 참고하여,
    • 우리는 사용자 예시를 LLM 프롬프트로 변환하는데,
    • 이는 Python 코드 형식으로 구조화되어 있습니다.
    • 이 프롬프트 형식은 LLM이 대량의 코드를 학습하였기 때문에 유리하며, 구조화된 출력을 제공하여 파싱하기 용이
  • 사용자 예시를 나타내기 위해 프롬프트는 먼저 장면에 있는 물건 목록과 잠재적인 수납장소 목록을 포함(전체 프롬프트와 문맥 예시는 부록 A를 참조하십시오).
  • 그 다음, 사용자에 따라 물건이 어디에 배치되어야 하는지를 반영하는 일련의 pick and place 명령이 뒤따릅니다.
  • 그런 다음, 우리는 LLM에게 마지막 줄을 완성해달라고 요청합니다.
  • 이 마지막 줄은 앞의 코드 블록이 무엇을 하는지를 요약하는 주석입니다.
  • 다음은 LLM이 완성한 예시로, 출력된 부분이 강조되어 있습니다:
  • 이 예시에서, LLM은 제공된 물건 배치를 요약하여 밝은 색의 옷은 서랍에, 어두운 색의 옷은 옷장에 넣어야 한다는 일반적인 규칙을 도출했습니다.
  • 이러한 예시는 특정 사용자에 맞춘 물건 배치 규칙을 일반화하는 데 사용됩니다.

  • 다음으로, LLM의 요약 결과를 사용하여 새로운, 보지 못한 물건들에 대한 배치를 생성
  • 프롬프트는 LLM 요약 단계에서 얻은 요약(코드 주석 형태), 보지 못한 물건들의 목록, 수납장소 목록, 그리고 첫 번째 물건에 대한 부분적인 pick and place 명령으로 구성됩니다.
  • 그런 다음, 우리는 LLM에게 각 물건을 어디에 배치할지 완성하도록 요청합니다:
  • 이제 출력된 pick and place 명령을 통해 새로운 물건들이 어디에 배치되어야 하는지 결정할 수 있습니다.

3.2. Personalized primitive selection

3.3. Real-world robotic system

  • LLM 요약에서 생성된 일반화된 규칙을 바탕으로, 이제 가정 내 환경을 정리하는 임무를 수행하는 로봇에 이 규칙을 구현할 수 있습니다.
  • 이를 위해 우리는 환경 내의 물체를 로컬라이즈하고 인식하는 인지 시스템과, 물체를 수납장소로 이동시키기 위한 사전 정의된 조작 프리미티브(기본 동작)를 사용
    • 우리의 설정에서는 pick and placepick and toss라는 프리미티브를 사용하며, 이는 가정 내 정리 작업에 적합
    • 그러나 다른 프리미티브 세트도 사용할 수 있습니다.

  • 새로운 사용자마다 시스템은 일련의 예제 선호도를 받아, 이전에 설명한 LLM 파이프라인을 실행하여 해당 사용자에 대한 개인화된 규칙을 생성
  • 이 규칙은 요약을 통해 생성된 일반화된 물체 카테고리 집합(예: 밝은 색 옷, 어두운 색 옷)을 포함하며, 각 카테고리는 해당 카테고리에 맞는 수납장소와 조작 프리미티브에 매핑됩니다.
  • 로봇은 환경을 정리하기 위해 다음 단계들을 반복하여 바닥에 더 이상 물체가 남지 않을 때까지 작업을 수행합니다:
    • (1) 가장 가까운 물체를 로컬라이즈하고,
    • (2) 물체를 일반화된 카테고리로 분류하며,
    • (3) LLM이 생성한 일반화된 규칙을 사용해 물체에 적합한 수납장소와 조작 프리미티브를 결정하고,
    • (4) 조작 프리미티브를 사용하여 물체를 수납장소에 배치합니다.
  • 그림 2는 이 절차의 개념적 설명을 제공하며, 알고리즘 1은 이러한 단계들을 의사 코드로 정리한 것입니다.

  • 우리 접근법의 중요한 측면 중 하나: LLM 요약이 인지 시스템에 자동으로 후보 카테고리를 제공한다는 것
  • 요약 텍스트에서 명사(또는 명사구)가 추출되어 우리가 사용하는 개방형 어휘 이미지 분류 모델인 CLIP(Radford et al., 2021)의 대상 레이블 집합으로 사용됩니다.
  • 예를 들어, 다음 LLM 프롬프트는 요약 텍스트에서 두 개의 일반 카테고리를 추출합니다(밝은 색 옷과 어두운 색 옷):

  • 이 요약과 개방형 어휘 분류의 조합은 시스템의 자율성을 위해 매우 중요합니다.
    • 이는 물체 분류기가 소수의 일반화된 물체 카테고리로 작업할 수 있게 하며, 접근 방식이 (i) 견고하다는 점에서 유리합니다.
    • 이는 구별해야 할 카테고리 수가 적기 때문이며, (ii) 서로 다른 사용자에 대해 임의의 물체 카테고리 집합을 지원할 수 있기 때문에 유연합니다.
    • 대조적으로, LLM 요약이 없으면 물체 분류기가 모든 가능한 세부 물체 클래스들을 인식할 수 있어야 하는데, 이는 훨씬 더 어렵습니다.
    • 또는 사용자가 각 목표 장면에 존재하는 물체 목록을 수동으로 지정해야 하는데, 이는 자율 시스템에 비현실적입니다.
profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글