결국 두 플랫폼의 핵심 경험은 동일합니다. "제미나이야, 내가 보여주는 이 공간의 분위기를 저녁 노을로 바꿔서 그림처럼 만들어줘" 와 같은 명령을 음성으로 전달하면, AI가 이를 이해하고 곧바로 편집된 이미지를 보여주는 방식입니다.
이 강력한 실시간 이미지 처리 능력의 중심에는 제미나이 2.5 플래시 이미지, 즉 '나노 바나나'가 있습니다. 구글이 자체적으로 '최첨단 이미지 생성 및 편집 모델'이라고 명명한 이 기술의 주요 특징은 다음과 같습니다 :
구글이 이 시점에 제미나이 라이브의 이미지 기능을 강화한 것은 우연이 아닙니다. 2026년 5월, 구글 연례 개발자 회의(I/O)에서 발표된 여러 정책들은 '제미나이'를 모든 AI 경험의 중심축으로 삼으려는 거대한 전략을 보여줍니다:
이번 I/O에서 가장 큰 주목을 받은 발표 중 하나는 바로 제미나이 옴니입니다. 구글은 이를 "어떤 입력으로든 무엇이든 만들 수 있는 모델" 이라고 소개하며, 첫 시작으로 영상 분야를 택했습니다 .
마치 '나노 바나나'로 이미지를 말로 편집하듯, '제미나이 옴니'는 영상을 대화하듯 편집하고 생성할 수 있게 해줍니다. 사용자는 텍스트, 사진, 기존 비디오 클립 등 다양한 재료를 조합하여 높은 품질의 영상을 만들고, "여기 등장인물의 옷 색깔을 바꾸고 배경을 해변으로 바꿔줘" 같은 복잡한 편집 명령을 자연어로 수행할 수 있습니다 . 구글은 옴니가 단순한 영상 생성 도구를 넘어, 물리 법칙과 세계 지식을 이해하는 '월드 모델(World Model)' 을 지향한다고 밝혔습니다
.
구글은 제미나이 앱과 검색의 기본 AI 모델을 제미나이 3.5 플래시로 전격 교체했습니다 . 이 모델의 가장 큰 특징은 압도적인 속도입니다. 경쟁사 최전선 모델 대비 토큰(텍스트 데이터 단위)을 4배 더 빠르게 출력하면서도, 코딩이나 복잡한 다단계 작업 수행 능력(에이전틱 태스크)은 이전 세대의 상위 모델들을 뛰어넘었습니다
. 이는 사용자들이 더 빠르게 답변을 얻으면서도 고급 추론 능력을 경험할 수 있게 되었음을 의미합니다.
구글이 내세우는 경쟁력의 핵심은 통합된 실시간 멀티모달 파이프라인입니다. 단순히 텍스트, 이미지, 영상 모델을 따로 잘 만드는 것을 넘어, 이 모든 것을 하나의 대화 경험 안에서 매끄럽게 엮어내는 것이죠 .
결국, 구글의 최종 목표는 사용자가 카메라를 통해 보여주는 현실 세계의 정보와 AI의 창의적인 생성 능력을 하나의 대화로 완벽하게 연결하는 것입니다. "내가 보는 것"과 "내가 만들고 싶은 것" 사이의 간극을 AI 대화가 메워주는 시대를 여는 것이죠. 이 모든 것이 실제 사용 환경에서 얼마나 완벽하게, 그리고 빠르게 구현될지가 앞으로의 가장 큰 관전 포인트입니다 .
Comments
0 comments