정렬은 언어 모델을 규범적으로 만들고, 기술적으로 만들지 않는다

포스트 트레이닝 정렬(Alignment)은 언어 모델을 인간의 선호에 맞추어 안전하고 유용하게 만드는 기술입니다.

그러나 이 연구는 정렬된 모델이 실제 인간 행동을 예측하는 능력에서는 기본(base) 모델에 비해 크게 뒤처진다는 점을 밝혔습니다.

기본 모델은 협상, 설득, 반복 게임 등 복잡한 전략적 상호작용에서 인간의 실제 행동을 더 잘 예측하는 반면, 정렬된 모델은 규칙 기반의 단순 상황이나 일회성 게임에서 더 우수한 성능을 보였습니다.

이는 정렬이 인간 행동을 규범적(normative) 관점에서 최적화하여, 인간이 실제로 하는 비합리적이고 적응적인 행동을 포착하지 못하는 한계가 있음을 시사합니다.

따라서, 인간 행동을 모델링하는 목적과 인간 친화적 모델을 만드는 목적 간에는 본질적인 트레이드오프가 존재함을 보여주어, 향후 모델 개발에 중요한 고려사항을 제시합니다.

댓글