데이터프레임에 대해 범주 이론이 가르쳐 주는 것
카테고리 이론을 활용해 데이터프레임의 본질과 연산을 분석한 글입니다.
Petersohn et al.의 데이터프레임 대수는 200개 이상의 판다스 연산을 15개의 기본 연산으로 압축했으며, 이 중 핵심은 스키마 변경 연산으로, 이를 세 가지 패턴인 재구조화(Delta, Δ), 병합(Sigma, Σ), 페어링(Pi, Π)으로 분류했습니다.
이 세 패턴은 카테고리 이론의 인접 삼중항(adjoint triple) 구조로 설명되며, 각각 스키마를 축소, 집계, 결합하는 역할을 하여 데이터 이동과 변환의 근본 원리를 제공합니다.
이론을 바탕으로 API를 설계하면, 스키마 변경 연산을 Δ, Σ, Π 중 하나로 표현하고, 각 연산의 출력 스키마를 명확히 계산할 수 있어 컴파일러 수준에서 스키마 일관성을 검증하고 최적화가 용이해집니다.
결과적으로, 데이터프레임의 데이터 모델, 연산 대수, 그리고 연산 조합의 이론적 근거를 제공하여, 더 견고하고 확장 가능한 데이터프레임 라이브러리 설계에 실용적 가치를 제시합니다.