AI
15시간 전
0
Dynamic Chunking Diffusion Transformer(DC-DiT)는 이미지 내용과 확산(diffusion) 타임스텝에 따라 토큰 시퀀스 길이를 동적으로 조절하여, 고정 길이 토큰 방식을 개선한 모델입니다.
엔코더-라우터-디코더 구조를 통해 2D 입력을 적응적으로 압축하는 청킹(chunking) 메커니즘을 학습하며, 배경은 적은 토큰으로, 세부 정보가 풍부한 영역은 더 많은 토큰으로 표현합니다.
이 방법은 확산 과정 초기의 거친 구조에는 적은 토큰을, 후기의 세밀한 디테일에는 더 많은 토큰을 사용하여 효율성과 성능을 동시에 향상시킵니다.
ImageNet 256×256 실험에서 기존 DiT 대비 FID와 Inception Score가 꾸준히 개선되었으며, 사전 학습된 DiT 모델에 최소한의 추가 학습만으로 적용 가능해 실용성도 뛰어납니다.
향후 픽셀 공간, 비디오, 3D 생성 등 다양한 생성 모델에 확장 적용할 수 있는 유망한 기술입니다.