수학: 연구 수준의 수학 능력을 평가하기 위한 수학자 선별 벤치마크
최첨단 대형 언어 모델(LLM)의 연구 수준 수학 능력을 평가하기 위한 새로운 벤치마크 Soohak이 발표되었습니다.
Soohak은 64명의 수학자가 직접 작성한 439개의 문제로 구성되어 있어, 기존의 소수 문제에 비해 훨씬 방대한 연구 수준 문제를 제공합니다.
이 벤치마크는 두 가지 하위 집합으로 나뉘며, 최첨단 모델인 Gemini-3-Pro, GPT-5, Claude-Opus-4.5가 각각 30.4%, 26.4%, 10.4%의 점수를 기록했습니다.
반면, Qwen3-235B, GPT-OSS-120B, Kimi-2.5 같은 오픈 가중치 모델은 15% 미만의 성능을 보여 여전히 개선 여지가 큽니다.
특히 Soohak은 잘못된 문제(ill-posed problems)를 인지하고 답변을 거부하는 능력을 평가하는 거부(refusal) 하위 집합을 포함해, 현재 모델들이 해결하지 못한 새로운 최적화 목표를 제시합니다.
이 거부 하위 집합에서는 어떤 모델도 50% 이상의 정확도를 넘지 못해, 연구 수학에서 중요한 문제 인식 능력이 부족함을 드러냈습니다.
데이터셋은 2026년 말에 공개될 예정이며, 그 전까지는 요청 시 평가 결과를 제공할 계획입니다.
Soohak은 LLM의 고급 수학적 추론 능력과 문제 인식 능력을 종합적으로 평가할 수 있는 중요한 기준점으로 자리매김할 전망입니다.
