MetaClaw: 그냥 말하기 -- 메타 학습하고 야생에서 진화하는 에이전트
MetaClaw는 대형 언어 모델(LLM) 에이전트를 위한 지속적 메타학습 프레임워크로, 기본 LLM 정책과 재사용 가능한 행동 스킬 라이브러리를 동시에 진화시킵니다.
스킬 기반 빠른 적응은 실패 궤적을 분석해 새로운 스킬을 즉시 합성하여 서비스 중단 없이 성능을 개선하며, 기회주의적 정책 최적화는 사용자 비활성 시간에 클라우드 LoRA 미세조정과 강화학습을 통해 정책을 점진적으로 업데이트합니다.
이 두 메커니즘은 상호 보완적으로 작용하여 더 나은 정책이 더 유용한 실패 데이터를 생성하고, 풍부한 스킬이 정책 최적화를 돕습니다.
또한 버전 관리를 통해 데이터 오염을 방지하며, GPU 없이도 대규모 LLM에 적용 가능하도록 프록시 기반 아키텍처를 채택하였습니다.
실험 결과, MetaClaw는 정확도를 최대 32% 향상시키고, 복합 작업의 완성도를 크게 높이는 등 실용적 가치가 입증되었습니다.
