FlashPrefill: 초고속 장기 컨텍스트 사전 채우기를 위한 즉각적인 패턴 발견 및 임계값 설정
FlashPrefill는 대규모 언어 모델의 롱 컨텍스트(prefilling) 처리를 획기적으로 가속화하는 기술입니다.
본 기술은 동적 희소(attention) 패턴 탐색과 동적 임계값 설정(dynamic thresholding) 기법을 활용하여, 긴 시퀀스에서 발생하는 계산 복잡도를 크게 줄입니다.
특히, 블록 검색(block-searching) 방식을 통해 수직, 대각선, 블록 형태의 희소 패턴을 동시에 탐지하며, 긴 꼬리 분포를 효과적으로 제거해 연산 효율을 극대화합니다.
실험 결과, 256K 길이 시퀀스에서 27.78배의 속도 향상을 보였고, 짧은 4K 컨텍스트에서도 기존 대비 1.71배 빠른 처리 속도를 유지하여 다양한 길이의 시퀀스에 실용적임을 입증하였습니다.
