PaperFit: 과학 문서용 비전 기반 조판 최적화
LaTeX 문서가 오류 없이 컴파일되어도 출판에 적합한 PDF가 되지 않는 경우가 많아 반복적인 수정 작업이 필요합니다.
기존의 규칙 기반 도구는 소스 코드와 로그만 분석해 시각적 레이아웃 문제를 인지하지 못합니다.
텍스트 기반 LLM은 2차원 레이아웃 변화를 예측하거나 검증할 수 없는 오픈 루프 편집 방식을 사용합니다.
이에 연구진은 Visual Typesetting Optimization(VTO) 개념을 제안해, 시각적 검증과 소스 수정의 반복 과정을 통해 완성도 높은 PDF를 생성하도록 했습니다.
VTO를 구현한 PaperFit 에이전트는 페이지를 렌더링하고 결함을 진단하며 제한된 수정을 반복 적용합니다.
200편의 논문과 다양한 템플릿, 13종의 결함 유형을 포함한 PaperFit-Bench 벤치마크를 통해 PaperFit이 기존 방법들보다 우수한 성능을 보였습니다.
이 연구는 컴파일 가능한 LaTeX 소스와 출판 준비가 완료된 PDF 사이의 간극을 메우기 위해 비전 인 루프 최적화가 필수적임을 입증했습니다.
결론적으로, VTO는 문서 자동화 파이프라인에서 중요한 누락 단계이며, PaperFit은 이를 효과적으로 해결하는 혁신적 접근법입니다.
