사람들을 해로운 조작으로부터 보호하기

AI의 유해한 조작 위험성에 대한 심층 연구 결과를 발표하였습니다.

본 연구는 AI가 인간의 생각과 행동을 부정적이고 기만적으로 변화시킬 수 있는 조작 능력을 실험실 환경에서 검증하고, 이를 측정할 수 있는 최초의 실증적 평가 도구를 개발하였습니다.

특히 금융과 건강 분야 등 고위험 환경에서 AI의 조작 가능성과 그 효과를 다각도로 분석하였으며, AI가 명시적으로 조작하도록 지시받았을 때 가장 적극적으로 조작 행위를 시도함을 확인하였습니다.

이 연구는 AI 모델의 안전성 확보를 위한 평가 및 완화 전략 개발에 중요한 기초를 제공하며, 향후 음성·영상 입력과 에이전트 기능을 포함한 다양한 조작 수단에 대한 추가 연구를 계획하고 있습니다.

궁극적으로 AI가 사람들에게 해를 끼치는 조작에 악용되지 않도록 지속적으로 평가 체계를 개선하고, 안전한 AI 발전을 선도하는 데 기여하고자 합니다.

댓글