Qwen-Image-2.0 기술 보고서

Qwen-Image-2.0은 고해상도 이미지 생성과 정밀한 이미지 편집을 하나의 프레임워크로 통합한 최신 모델입니다.

이 모델은 Qwen3-VL을 조건 인코더로 사용하고, 다중 모달 확산 변환기(Multimodal Diffusion Transformer)를 통해 조건과 타겟을 공동 모델링합니다.

대규모 데이터 큐레이션과 맞춤형 다단계 학습 파이프라인을 적용해 뛰어난 멀티모달 이해력과 유연한 생성 및 편집 능력을 갖추었습니다.

최대 1,000 토큰의 지시문을 처리해 슬라이드, 포스터, 인포그래픽, 만화 등 텍스트가 풍부한 콘텐츠를 효과적으로 생성할 수 있습니다.

다국어 텍스트의 정확성과 타이포그래피 품질이 크게 향상되었으며, 사실적인 질감과 조명 표현으로 포토리얼리스틱 생성 능력도 강화되었습니다.

복잡한 프롬프트에 대한 대응력이 높아 다양한 스타일에서 안정적인 결과를 제공합니다.

인간 평가 결과, Qwen-Image-2.0은 이전 버전 대비 생성과 편집 성능에서 현저한 향상을 보여주어, 보다 일반적이고 신뢰할 수 있는 이미지 생성 기반 모델로 자리매김했습니다.

요약하면, Qwen-Image-2.0은 텍스트와 이미지 편집을 통합한 강력한 멀티모달 AI로, 고품질 이미지 생성과 정밀 편집을 동시에 지원하는 차세대 모델입니다.

댓글