MinerU-Diffusion: 확산 디코딩을 통한 역렌더링으로 문서 OCR 재고찰
MinerU-Diffusion는 문서 OCR을 위해 기존의 자동회귀 디코딩을 대체하는 병렬 확산 디노이징(diffusion denoising) 방식을 도입한 프레임워크입니다.
기존 OCR이 순차적 디코딩으로 인해 발생하는 지연과 오류 전파 문제를 개선하고, 문서의 레이아웃과 긴 시퀀스 정보를 효과적으로 복원하는 역렌더링(inverse rendering) 관점에서 접근하였습니다.
특히, 블록 단위 확산 디코더(block-wise diffusion decoder)와 불확실성 기반 커리큘럼 학습(uncertainty-driven curriculum learning) 전략을 적용해 안정적인 학습과 효율적인 긴 문서 처리 속도를 구현하였으며, 기존 방법 대비 최대 3.2배 빠른 디코딩 속도와 향상된 견고성을 보였습니다.
또한, 새로운 Semantic Shuffle 벤치마크 평가를 통해 언어적 사전 지식 의존도를 줄이고 시각적 OCR 성능을 강화한 점이 확인되었습니다.
이 기술은 문서 인식 분야에서 빠르고 정확한 대규모 문서 처리에 실용적 가치를 제공합니다.
