T2S-Bench & Structure-of-Thought: 종합 텍스트-구조 추론 벤치마킹 및 프롬프트 작성
Structure of Thought(SoT) 기법은 대형 언어 모델이 중간 텍스트 구조를 명시적으로 구성하도록 유도하여 다양한 작업에서 성능을 향상시키는 프롬프트 기법입니다.
이를 바탕으로 개발된 T2S-Bench는 텍스트를 구조로 변환하는 능력을 평가하고 개선하기 위한 최초의 벤치마크로, 6개 과학 분야와 32가지 구조 유형에 걸쳐 1,800여 개 샘플을 포함하여 공정성과 정확성을 보장합니다.
45개 주요 모델을 평가한 결과, 다중 단계 추론과 종단 간 추출 과제에서 여전히 큰 성능 향상 여지가 있으며, SoT 적용 시 평균 5.7% 성능 개선, T2S-Bench로 미세조정하면 8.6%까지 향상됨을 확인하였습니다.
본 연구는 명시적 텍스트 구조화의 중요성과 SoT, T2S-Bench의 상호 보완적 가치를 강조하며, 데이터셋과 평가 코드를 공개하여 후속 연구와 실용적 활용을 지원합니다.
