T-MAP: 궤적 인지 진화 탐색을 통한 LLM 에이전트 레드팀팅
T-MAP은 trajectory-aware evolutionary search 기법으로, 대형 언어 모델(LLM) 에이전트의 다단계 도구 실행 과정에서 발생하는 취약점을 탐지합니다.
이 방법은 실행 궤적(execution trajectories) 정보를 활용하여, 기존의 단순 텍스트 기반 공격을 넘어 실제 도구 상호작용을 통해 안전장치를 우회하고 유해한 결과를 유발하는 적대적 프롬프트(adversarial prompts)를 자동으로 생성합니다.
다양한 Model Context Protocol(MCP) 환경에서 평가한 결과, T-MAP은 GPT-5.2, Gemini-3-Pro 등 최신 모델에 대해서도 높은 공격 성공률을 보이며, 자율 LLM 에이전트의 숨겨진 취약점을 효과적으로 드러냅니다.
이 기술은 LLM 에이전트의 보안 강화 및 안전성 검증에 실용적 가치를 제공하며, 복잡한 도구 호출 시나리오에서의 취약점 탐색에 새로운 방향을 제시합니다.
