LLM 아키텍처 갤러리

https://sebastianraschka.com/llm-architecture-gallery/

이 페이지는 최신 대형 언어 모델(LLM)들의 아키텍처 비교를 한눈에 볼 수 있도록 다양한 모델의 구조와 주요 특징을 정리한 자료입니다.

주요 기술적 특징으로는 Dense, Sparse MoE, Hybrid MoE 등 다양한 디코더 타입과, GQA, MHA, MLA, QK-Norm, RoPE, NoPE, DeltaNet, Lightning Attention 등 최신 주목받는 어텐션 및 정규화 기법들이 포함되어 있습니다.

각 모델은 파라미터 규모, 어텐션 방식, 노멀라이제이션 구조, 활성화된 전문가 수 등 세부 설계가 다르며, 이를 통해 효율성, 추론 속도, 다국어 지원, 추론 안정성 등 실용적 가치를 높이고자 하는 다양한 시도를 확인할 수 있습니다.

또한, 이 자료는 각 모델별 공식 구성 파일과 기술 보고서 링크를 제공하여 개발자나 연구자가 직접 상세 내용을 검토하고 활용할 수 있도록 돕고 있습니다.

최신 LLM 아키텍처 동향과 설계 선택지를 체계적으로 이해하고자 하는 개발자 및 연구자에게 매우 유용한 참고 자료입니다.

LLM 아키텍처 갤러리

댓글