Qianfan-OCR: 문서 인텔리전스를 위한 통합 엔드투엔드 모델

Qianfan-OCR는 40억 개의 파라미터를 가진 비전-언어 통합 모델로서, 문서 파싱, 레이아웃 분석, 문서 이해를 하나의 아키텍처에서 수행합니다.

특히, Layout-as-Thought 메커니즘을 도입해, 특수 토큰을 통해 구조화된 레이아웃 표현(바운딩 박스, 요소 유형, 읽기 순서)을 생성한 후 최종 출력을 만들어 복잡한 문서 레이아웃에서도 정확도를 높입니다.

이 모델은 이미지에서 바로 마크다운 변환을 지원하며, 표 추출, 차트 이해, 문서 질의응답, 핵심 정보 추출 등 다양한 프롬프트 기반 작업을 수행할 수 있습니다.

OmniDocBench, OlmOCR Bench 등 여러 OCR 벤치마크에서 최상위 성능을 기록하며, Baidu AI Cloud Qianfan 플랫폼을 통해 공개되어 실용적 활용이 가능합니다.

댓글