Appen finns nu tillgänglig för macOS, iOS och Android, men det är macOS-versionen som tydligast illustrerar strategin med en kuraterad modellflora . Till skillnad från de öppna biblioteken i Ollama och LM Studio, där användare kan ladda nästan vilken kompatibel modell som helst, exponerar AI Edge Gallery för macOS för närvarande fem handplockade Gemma-modeller från Google
. Enligt 9to5Mac rör det sig om Gemma-4-12B-it, Gemma-4-E2B-it, Gemma-4-E4B-it, en Gemma-4 26B-variant och FunctionGemma-270M
. Detta handplockade urval är själva kärnan i Googles strategi: en kontrollerad och kvalitetssäkrad miljö
.
Ekosystemet drivs av Googles egenutvecklade inferensmotor LiteRT-LM, som har stöd för CPU, GPU och NPU över Linux, macOS och Windows . Den modell som lyfts fram i prestandatester är Gemma-4-E2B (2,58 GB), och den officiella dokumentationen ger en tydlig bild av modellens förmåga på en MacBook Pro M4
:
Det enorma prestandalyftet med GPU-acceleration visar hur väl Googles teknikstack är anpassad för Apple Silicon och Metal-ramverket, vilket ger en närmast omedelbar och flytande användarupplevelse.
Släppt under Apache 2.0-licensen är Gemma 4 12B stjärnan i lanseringen . Arkitekturen är dess största särskiljande drag – en tät, decoder-baserad transformermodell som bygger på samma avancerade decoderstruktur som den betydligt större Gemma 4 31B Dense
.
Den avgörande innovationen är den encoder-fria multimodala arkitekturen. De flesta multimodala modeller använder separata, utrymmeskrävande kodare för bild (som en Vision Transformer) och ljud (som konformer-lager) för att översätta data till språkmodellen . Gemma 4 12B eliminerar dem helt
. Istället används:
Detta gör det möjligt för modellen att hantera text, bilder, ljud och video i ett enda enhetligt flöde . Google hävdar att arkitekturen ger ”prestanda som närmar sig vår 26B MoE-modell med mindre än hälften av minnesanvändningen”, och att den är körbar på konsumentdatorer med endast 16 GB enhetligt minne
.
Riktmärken bekräftar självförtroendet – 12B-modellen slår långt över sin viktklass. På GPQA Diamond (avancerat resonemang på forskarnivå) når den imponerande 78,8, vilket placerar den nära 26B-varianten. På akademiska flervalstest som MMLU Pro uppnår den 77,2 %, och på det tävlingsinriktade matematikprovet AIME 2026 når den 77,5 % . På LiveCodeBench för kodgenerering får den 72,5 %, vilket visar robust praktisk förmåga i agentliknande arbetsflöden och flerstegsresonemang
.
Tredje pusselbiten i trion är Google AI Edge Eloquent, en dikteringsapp som positionerar sig som ett direkt och kostnadsfritt alternativ till betalda transkriberingstjänster . Appen drivs av Gemma-baserade modeller och är designad för att fungera helt offline från grunden
.
Den överträffar enkel transkribering genom att agera som en automatisk talspråksputsare. Appen ”rensar aggressivt bort” utfyllnadsord som ”eh” och ”liksom”, korrigerar grammatik i realtid och omstrukturerar rörigt talspråk till sammanhängande, professionell text . Det gör den till mer av ett kommunikationsverktyg än en anteckningsapp. Den främsta särskiljande faktorn är prismodellen: ingen prenumeration, ingen användningsbegränsning
. macOS-versionen kräver macOS 13.0 och en Mac med åtminstone Apple M1-chip, men App Store-sidan noterar att vissa avancerade, valfria funktioner kan kräva molnanslutning
.
Den här lanseringen etablerar två motsatta filosofier för lokal AI. Googles strategi är ett ”walled garden”: ett kuraterat, Google-godkänt modellutbud, tätt integrerat med egna appar (Gallery för utforskning, Eloquent för diktering) och en enhetlig inferensmotor (LiteRT-LM) med både CLI och Python-API . Målet är att erbjuda en sömlös konsumentupplevelse som ”bara fungerar” direkt ur kartongen.
Detta står i direkt kontrast till Ollama och LM Studio, som prioriterar maximal flexibilitet och valfrihet – öppna bibliotek där användaren själv kan ladda vilken kompatibel modell som helst . Det är värt att notera att både Ollama och LM Studio redan har stöd för Gemma 4 12B-modellen med öppen vikt, så Googles modell är inte exklusiv för den egna plattformen
.
Googles fördel ligger i optimering i första part, där de egna modellerna finslipas specifikt för inferensmotorn på Apple Silicon för bättre prestanda och lägre minnesanvändning. Avvägningen för användaren är tydlig: du får en mer polerad och integrerad upplevelse, men du kan inte köra modeller utanför Googles kuraterade Gemma-familj. Detta positionerar Google för att locka användare som värdesätter tillförlitlighet och enkelhet framför experimentell frihet, och skapar en tydlig vägskälsmarkör för lokal AI på Mac.
Comments
0 comments