TMAS: 다중 에이전트 시너지를 통한 테스트 시 계산 확장

대규모 언어 모델의 추론 능력을 향상시키기 위해 테스트 시 계산 자원 확장이 중요한 과제로 떠올랐습니다.

TMAS는 여러 에이전트가 협력하는 멀티에이전트 시너지 기반 프레임워크로, 추론 과정을 구조화하여 효율적인 정보 흐름을 구현했습니다.

이 시스템은 계층적 메모리를 도입하여 신뢰할 수 있는 중간 결론과 피드백을 재사용하는 경험 은행과, 중복된 추론 경로를 피하도록 전략을 기록하는 가이드라인 은행으로 구성됩니다.

또한, TMAS는 기본 추론 능력 유지와 경험 활용 극대화, 새로운 전략 탐색을 동시에 달성하기 위한 하이브리드 보상 강화학습 기법을 설계했습니다.

실험 결과, TMAS는 기존 테스트 타임 스케일링 기법보다 더 강력한 반복적 확장 성능을 보였으며, 하이브리드 보상 학습이 안정성과 효과를 더욱 향상시켰습니다.

코드와 데이터는 공개되어 있어 연구 및 실험에 활용할 수 있습니다.

TMAS는 대규모 언어 모델의 추론 효율을 높이는 새로운 방향을 제시하며, 협력적 에이전트 구조와 강화학습을 결합한 혁신적 접근법으로 평가됩니다.

댓글