LMEB: 장기 기억 임베딩 벤치마크

https://huggingface.co/papers/2603.12572

LMEB(Long-horizon Memory Embedding Benchmark)는 기존 텍스트 임베딩 벤치마크가 주로 다루는 단순한 구간 검색(passsage retrieval)과 달리, 장기 메모리 검색(long-horizon memory retrieval) 능력을 평가하는 새로운 평가 체계입니다.

에피소드, 대화, 의미, 절차 등 4가지 메모리 유형에 대해 22개 데이터셋과 193개의 제로샷 검색 작업을 포함하며, AI 생성 및 인간 주석 데이터를 모두 활용합니다.

15개의 다양한 크기(수억~100억 매개변수) 임베딩 모델을 평가한 결과, 기존 구간 검색 성능이 장기 메모리 검색에 일반화되지 않으며, 대형 모델이 반드시 우수하지 않다는 점을 밝혔습니다.

LMEB는 메모리 증강 시스템에서 중요한 텍스트 임베딩의 장기적, 맥락 의존적 메모리 검색 성능을 표준화하고 재현 가능하게 평가할 수 있는 프레임워크로, 관련 연구 및 응용 발전에 기여할 것으로 기대됩니다.

자세한 내용과 코드는 https://github.com/KaLM-Embedding/LMEB 에서 확인하실 수 있습니다.

LMEB: 장기 기억 임베딩 벤치마크

댓글