제미니 옴니 소개

구글이 새로운 멀티모달 AI 모델인 Gemini Omni를 공개했습니다.

Gemini Omni는 이미지, 오디오, 비디오, 텍스트 등 다양한 입력을 결합해 고품질의 영상을 생성하고 자연어 대화로 편집할 수 있는 멀티모달 생성 능력을 갖췄습니다.

첫 번째 모델인 Gemini Omni Flash는 이미 구글의 Gemini 앱, Google Flow, YouTube Shorts에서 제공되고 있으며, 향후 이미지와 오디오 출력도 지원할 예정입니다.

이 모델은 물리 법칙에 대한 직관적 이해와 역사, 과학, 문화적 맥락을 반영해 더욱 현실적이고 의미 있는 스토리텔링이 가능하도록 설계되었습니다.

사용자는 대화형 명령을 통해 영상 속 장면, 캐릭터, 스타일 등을 여러 차례에 걸쳐 세밀하게 수정할 수 있습니다.

또한, 사용자의 디지털 아바타를 생성해 자신의 목소리와 모습을 영상에 적용할 수 있으며, 모든 생성 영상에는 AI 생성임을 식별할 수 있는 SynthID 디지털 워터마크가 포함됩니다.

현재 Gemini Omni Flash는 구글 AI Plus, Pro, Ultra 구독자에게 제공되며, 곧 개발자와 기업 고객을 위한 API도 공개될 예정입니다.

Gemini Omni는 AI 기반 영상 제작과 편집의 새로운 가능성을 열어 창작자와 개발자에게 혁신적인 도구가 될 전망입니다.

댓글