대규모 온라인 익명 해제와 LLMs
대규모 온라인 익명성 해제(deanonymization)에 대한 연구로, 본 논문은 대형 언어 모델(LLM)을 활용해 인터넷 상의 익명 사용자들을 높은 정확도로 식별하는 방법을 제시합니다.
기술적 특징으로는, LLM을 통해 익명 프로필과 대화 내용에서 신원 관련 특징을 추출하고, 의미 임베딩을 활용해 후보 매칭을 탐색하며, 최종적으로 후보를 검증해 오탐을 줄이는 공격 파이프라인을 구현하였습니다.
실용적 가치는, 기존의 구조화된 데이터에 의존하던 익명성 해제 기법과 달리, 다양한 플랫폼의 비정형 사용자 콘텐츠에 직접 적용 가능하며, 실제 해커 뉴스, 레딧 등 여러 데이터셋에서 기존 방법 대비 최대 68% 재현율과 90% 정밀도를 달성해 온라인 익명성 보호가 더 이상 유효하지 않음을 보여줍니다.
이 연구는 온라인 개인정보 보호 위협 모델을 재고할 필요성을 강조합니다.
