"무시해!" 공격

"Disregard that!" 공격은 LLM의 핵심 입력인 컨텍스트 윈도우에 악의적이고 신뢰할 수 없는 텍스트가 포함될 때 발생하는 취약점으로, 이를 통해 공격자가 모델의 행동을 조작할 수 있습니다.

컨텍스트 윈도우는 LLM이 응답을 생성하기 전에 참조하는 모든 입력 데이터(대화 기록, 코드, 문서 등)를 의미하며, 이 창을 공유하거나 외부의 신뢰할 수 없는 자료를 포함할 경우 공격 위험이 커집니다.

기존의 방어책인 'AI 가드레일'이나 다중 LLM 계층 구조, 구조화된 입력 검증 등은 근본적인 해결책이 되지 못하며, 공격자가 한 번만 성공해도 시스템 전체가 위험해지는 구조적 문제를 내포하고 있습니다.

실질적인 대응책으로는 신뢰할 수 없는 입력을 컨텍스트 윈도우에 포함하지 않는 것, 위험을 감수하거나 인간의 검토를 도입하는 방법, 또는 LLM이 생성한 코드를 사람이 검토 후 실행하는 전통적 소프트웨어 방식이 제안됩니다.

결국, LLM을 통한 자동화에서 신뢰되지 않은 입력을 무분별하게 받아들이는 것은 매우 위험하며, 이를 방지하기 위한 근본적 설계와 운영 정책이 필수적임을 시사합니다.

댓글