이 애플리케이션은 이제 macOS, iOS, 안드로이드에서 모두 사용할 수 있습니다. 특히 맥OS 버전은 구글의 모델 큐레이션 전략을 뚜렷하게 보여줍니다 . 호환되는 거의 모든 모델을 자유롭게 가져올 수 있는 올라마나 LM 스튜디오의 개방형 라이브러리와 달리, 맥OS용 AI 엣지 갤러리는 현재 구글이 엄선한 5개의 젬마 모델만을 노출합니다
. IT 매체 9to5Mac의 보도에 따르면, 제공되는 모델은 Gemma-4-12B-it, Gemma-4-E2B-it, Gemma-4-E4B-it, Gemma-4 26B 모델, 그리고 FunctionGemma-270M입니다
. 이는 품질이 보증된 환경을 통제하겠다는 구글 전략의 핵심입니다
.
이 생태계의 기반은 구글의 LiteRT-LM 추론 엔진입니다. 이 엔진은 리눅스, 맥OS, 윈도우에서 CPU, GPU, NPU 백엔드를 지원합니다 . 공식 문서에서 성능 벤치마크의 기준으로 삼은 모델은 Gemma-4-E2B(2.58 GB)이며, 맥북 프로 M4에서 다음과 같은 놀라운 성능을 보여줍니다
:
GPU 가속 시 토큰 처리 속도가 CPU 대비 8배 이상으로 대폭 향상되어, 거의 즉각적인 반응을 보여줍니다. 이는 구글의 기술 스택이 애플 실리콘의 Metal API에 얼마나 최적화되었는지를 잘 보여주며, 사용자에게 유려한 경험을 제공합니다.
아파치 2.0 라이선스로 출시된 젬마 4 12B는 이번 출시의 핵심 모델입니다 . 이 모델의 가장 큰 차별점은 구조에 있습니다. 이는 훨씬 더 큰 젬마 4 31B 밀집형(Dense) 모델과 동일한 고급 디코더 구조를 사용하는 밀집형, 디코더 전용 트랜스포머입니다
.
가장 혁신적인 부분은 인코더가 없는(Encoder-Free) 멀티모달 설계입니다. 대부분의 멀티모달 모델은 언어 모델이 텍스트 외 데이터를 이해할 수 있도록, 이미지용 ViT, 오디오용 컨포머(conformer) 레이어 같은 별도의 크고 무거운 인코더를 사용합니다 . 젬마 4 12B는 이를 완전히 제거했습니다
. 대신 다음과 같은 방식을 채택합니다.
이 설계 덕분에 하나의 통합된 흐름 속에서 텍스트, 이미지, 오디오, 비디오를 모두 처리할 수 있습니다 . 구글은 이 구조를 통해 "26B MoE 모델에 근접하는 성능을 절반도 안 되는 메모리로" 달성했으며, 16GB 통합 메모리만 갖춘 소비자용 노트북에서도 실행 가능하다고 밝혔습니다
.
벤치마크 결과는 자신감을 뒷받침합니다. 12B 모델로서는 놀라운 성과를 보여줍니다. 대학원 수준의 추론 능력을 측정하는 GPQA Diamond에서 78.8점을 기록하며 26B 모델에 근접했습니다. 학술 스타일의 다중 선택 벤치마크인 MMLU Pro에서는 77.2%, 경쟁 수학 벤치마크 AIME 2026에서는 77.5%를 기록했습니다 . 코드 생성 능력을 평가하는 LiveCodeBench에서는 72.5%를 기록하며, 다단계 추론이나 에이전트 기반 작업에서도 실용적인 능력을 입증했습니다
.
이번 3종 세트의 마지막은 AI 엣지 엘로퀀트입니다. 유료 음성 텍스트 변환 서비스의 직접적인 무료 대안을 표방하는 받아쓰기 앱입니다 . 젬마 기반 모델로 구동되며, 철저하게 오프라인을 우선하도록 설계되었습니다
.
이 앱은 단순한 필사를 넘어 자동 음성 교정기 역할을 합니다. "음", "어" 같은 군더더기말을 "적극적으로 잘라내고", 문법을 즉석에서 교정하며, 정리되지 않은 거친 음성을 일관성 있는 전문적인 텍스트로 재구성합니다 . 따라서 메모 도구라기보다는 커뮤니케이션 도구에 가깝습니다. 가장 큰 특징은 가격 정책에 있습니다. 구독료도, 사용량 제한도 없습니다
. 맥OS 버전은 macOS 13.0 이상, 애플 M1 칩 이상을 요구합니다. 단, 앱스토어 페이지에는 일부 고급 기능의 경우 클라우드 처리가 필요할 수 있다고 명시되어 있습니다
.
이번 출시는 로컬 AI에 대한 두 가지 상반된 철학을 명확히 보여줍니다. 구글의 전략은 '월드 가든' 접근법입니다. 즉, 구글이 승인한 엄선된 모델 세트를 통해, 브랜드화된 자사 앱(탐색용 갤러리, 받아쓰기용 엘로퀀트), 통합 추론 엔진(LiteRT-LM), 그리고 CLI·파이썬 API가 긴밀하게 통합된 생태계를 구축하는 것입니다 . 목표는 설치하자마자 '그냥 잘 되는' 완성도 높은 소비자 경험을 제공하는 것입니다.
이는 최대한의 유연성과 선택권을 우선시하는 올라마 및 LM 스튜디오와 정반대입니다. 이들은 사용자가 원하는 거의 모든 호환 모델을 가져올 수 있는 개방형 라이브러리입니다 . 흥미로운 점은, 올라마와 LM 스튜디오 모두 이미 오픈 웨이트(open-weight) 모델인 젬마 4 12B를 자체적으로 지원하고 있다는 사실입니다. 구글의 모델이 반드시 자사 스택에서만 독점적으로 실행되는 것은 아닌 셈이죠
.
구글의 강점은 자체 최적화에 있습니다. 자사의 모델을 자사의 추론 엔진이 애플 실리콘에서 최고의 성능과 최저 메모리 사용량을 내도록 미세 조정할 수 있다는 뜻입니다. 사용자에게 주어진 선택지는 명확합니다. 더 세련되고 통합된 경험을 얻는 대신, 구글이 큐레이션한 젬마 제품군 외의 모델은 실행할 수 없습니다. 이는 실험적 자유보다 신뢰성과 사용 편의성을 중시하는 사용자들을 겨냥한 움직임으로, 맥에서 로컬 AI가 나아갈 방향에 또 하나의 뚜렷한 갈림길을 만들고 있습니다.
Comments
0 comments