Cheers: 패치 세부 정보를 의미 표현과 분리하여 통합 멀티모달 이해 및 생성을 가능하게 함
Cheers는 시각적 세부 정보와 의미 표현을 분리하여, 통합 멀티모달 이해 및 생성을 가능하게 하는 모델입니다.
주요 구성 요소로는 이미지 잠재 상태를 의미 토큰으로 압축하는 비전 토크나이저, 텍스트 생성과 이미지 생성을 통합하는 LLM 기반 트랜스포머, 그리고 의미 기반으로 세부 정보를 점진적으로 주입하는 계단식 플로우 매칭 헤드가 포함됩니다.
이 구조는 시각적 이해와 이미지 생성 작업을 동시에 최적화하며, 기존 모델 대비 4배의 토큰 압축을 통해 효율적인 고해상도 이미지 처리를 지원합니다.
실험 결과, Cheers는 유명 벤치마크에서 최첨단 모델과 동등하거나 우수한 성능을 보이며, 학습 비용은 20% 수준으로 크게 절감되어 실용적 가치를 입증하였습니다.
