웹에서 1억 2,750만 개의 양식이 말해주는 프런트엔드 입력 검증의 현황

https://amandastjerna.se/blog/127-million-forms/

웹에서 1억 2,750만 개의 양식이 말해주는 프런트엔드 입력 검증의 현황 : 프로그래밍

웹 프론트엔드 입력 검증에서 HTML5의 pattern 속성을 활용한 정규표현식 사용 현황을 분석하였습니다.

CommonCrawl 2023년 9~10월 데이터(약 34억 페이지)에서 1억 2천 7백만 개 이상의 폼을 추출해, 입력 필드의 정규표현식 패턴 사용 빈도와 중복, 그리고 보안 취약점 가능성을 조사하였습니다.

분석 결과, 정규표현식은 매우 중복되고 단순한 패턴이 많으며, 약 11%는 기본적인 XSS 공격을 우회할 수 있는 취약점을 내포하고 있었습니다. 또한, 이메일 검증용 정규표현식은 다양하지만, 많은 경우 RFC 표준을 제대로 반영하지 못하고 불필요한 시작/끝 앵커를 사용하는 등 오용 사례가 많았습니다.

연구는 SMT 기반의 Ostrich 문자열 제약 해결기를 활용해 정규표현식의 유효성, 보안 취약점, 그리고 특정 도메인 이메일 허용 여부 등을 자동으로 검증하는 기술적 접근을 시도하였으며, 이 과정에서 웹 개발자들이 흔히 겪는 입력 검증의 어려움과 한계를 드러냈습니다.

이 데이터와 분석 도구는 공개되어 있어, 웹 개발자와 보안 연구자들이 대규모 웹 입력 검증 실태를 이해하고 개선 방안을 모색하는 데 실용적 가치를 제공합니다.

웹에서 1억 2,750만 개의 양식이 말해주는 프런트엔드 입력 검증의 현황

댓글