연간 600시간을 절약한 한 줄짜리 Kubernetes 수정사항
Kubernetes의 기본 설정인 fsGroupChangePolicy가 대용량 PersistentVolume(PV)에서 재시작 시간을 심각하게 지연시키는 병목 현상을 초래하였습니다.
Atlantis라는 Terraform 관리 도구가 PV에 수백만 개의 파일을 저장하면서, Kubernetes가 PV 마운트 시마다 모든 파일과 폴더의 그룹 권한을 재귀적으로 변경하는 작업에 30분 이상 소요되었으나, 이 문제를 fsGroupChangePolicy를 Always에서 OnRootMismatch로 변경하는 단 한 줄의 설정으로 해결하였습니다.
이 간단한 설정 변경으로 재시작 시간이 30초로 단축되어, 매월 약 50시간, 연간 600시간에 달하는 엔지니어링 시간 낭비를 방지하고, 온콜 엔지니어의 불필요한 알림도 줄일 수 있었습니다.
대규모 PV를 사용하는 Kubernetes 환경에서는 기본 보안 설정이 오히려 성능 병목을 유발할 수 있으므로, securityContext 내의 fsGroup과 fsGroupChangePolicy 설정을 점검하는 것이 중요합니다.
이 사례는 복잡한 문제도 근본 원인을 이해하고 적절한 설정을 적용하면 간단히 해결할 수 있음을 보여주며, 인프라 운영 효율성을 크게 향상시킬 수 있음을 시사합니다.
