DARE: 분포 인식 검색을 통한 LLM 에이전트와 R 통계 생태계 정렬
DARE는 R 통계 생태계에 특화된 분포 인지 기반 임베딩 모델로, 함수 표현에 데이터 분포 정보를 통합하여 R 패키지 검색 성능을 크게 향상시켰습니다.
기존 함수 수준 의미 중심의 검색 방식과 달리, DARE는 분포 특성과 함수 메타데이터를 융합해 관련성 높은 결과를 제공하며, 8,191개 고품질 CRAN 패키지로 구성된 RPKB 지식베이스를 기반으로 합니다.
또한, DARE를 탑재한 **R 지향 LLM 에이전트(RCodingAgent)**는 신뢰도 높은 R 코드 생성과 통계 분석 작업을 지원하여 LLM 자동화와 R 생태계 간 격차를 줄이는 데 기여합니다.
실험 결과, DARE는 적은 파라미터로도 기존 공개 임베딩 모델 대비 최대 17% 높은 검색 정확도를 기록하며, 실제 분석 작업에서 유의미한 성능 향상을 입증하였습니다.
