OpenSeeker: 훈련 데이터를 완전 공개하여 최첨단 검색 에이전트를 민주화하기
OpenSeeker는 최첨단 검색 에이전트 개발에 필요한 고품질 학습 데이터와 모델을 완전 공개한 최초의 오픈소스 프로젝트입니다.
핵심 기술로는 (1) 웹 그래프를 역설계하여 복잡한 다중 추론 문제를 생성하는 팩트 기반 QA 합성, (2) 노이즈를 제거해 고품질 행동을 유도하는 디노이즈드 궤적 합성을 도입하였습니다.
단 11.7천 개의 합성 샘플로 단일 학습만 수행해도, 산업계 대형 모델과 경쟁하거나 능가하는 성능을 여러 벤치마크에서 입증하였으며, 특히 중국어 환경에서 알리바바의 Tongyi DeepResearch를 뛰어넘는 결과를 보였습니다.
이 프로젝트는 학계와 연구 커뮤니티가 대규모 자원 없이도 최첨단 검색 에이전트를 개발할 수 있도록 데이터와 모델을 전면 공개하여, 연구의 민주화와 투명한 협업 생태계 조성에 기여합니다.
