De applicatie is nu beschikbaar op macOS, iOS en Android, maar de macOS-versie legt een specifieke strategie voor modelcuratie bloot . In tegenstelling tot de open bibliotheken van Ollama en LM Studio, waar gebruikers bijna elk compatibel model kunnen downloaden, toont de macOS AI Edge Gallery momenteel vijf door Google geselecteerde Gemma-modellen
. Volgens 9to5Mac gaat het om Gemma-4-12B-it, Gemma-4-E2B-it, Gemma-4-E4B-it, een Gemma-4 26B-variant en FunctionGemma-270M
. Deze handgeplukte selectie vormt de kern van Google's strategie: een gecontroleerde omgeving met kwaliteitsgarantie
.
Onder de motorkap wordt het ecosysteem aangedreven door Google's LiteRT-LM-inferentie-engine. Deze ondersteunt CPU-, GPU- en NPU-backends op Linux, macOS en Windows . Het model dat wordt gebruikt voor prestatiebenchmarks blijft Gemma-4-E2B (2,58 GB), en de officiële documentatie geeft een duidelijk beeld van de mogelijkheden op een MacBook Pro M4
:
De enorme snelheidswinst met GPU-versnelling laat zien hoe goed Google's stack is afgestemd op Apple's Metal API, wat een bijna instantane, vloeiende gebruikerservaring oplevert.
Uitgebracht onder de Apache 2.0-licentie is Gemma 4 12B de ster van deze lancering . De architectuur is het grootste onderscheidende kenmerk. Het is een dense, decoder-only transformer die dezelfde geavanceerde decoderstructuur gebruikt als het veel grotere Gemma 4 31B Dense-model
.
De cruciale innovatie is het encoder-vrije multimodale ontwerp. De meeste multimodale modellen gebruiken aparte, logge encoders voor visuele data (zoals een ViT) en audio (zoals conformer-lagen) om data te vertalen voor het taalmodel . Gemma 4 12B elimineert deze volledig
. In plaats daarvan gebruikt het:
Hierdoor kan het model tekst, beeld, audio en video op een native manier verwerken in één enkele, uniforme stroom . Google claimt dat deze architectuur "prestaties levert die onze 26B MoE-modellen benaderen met minder dan de helft van het geheugen", en dat alles draait op consumentenlaptops met slechts 16 GB unified memory
.
Benchmarks bevestigen dit vertrouwen en tonen aan dat het 12B-model ver boven zijn gewichtsklasse presteert. Op GPQA Diamond (redeneren op universitair niveau) scoort het een indrukwekkende 78,8, wat dicht bij de 26B-variant ligt. Op academische meerkeuzetests zoals MMLU Pro behaalt het 77,2%, en op de competitieve wiskundebenchmark AIME 2026 scoort het 77,5% . Op LiveCodeBench voor codegeneratie bereikt het een score van 72,5%, wat robuuste praktische vaardigheden aantoont in agentische workflows en meerstaps redeneren
.
De derde loot aan de stam is Google AI Edge Eloquent, een dicteer-app die zichzelf positioneert als een direct, gratis alternatief voor betaalde transcriptiediensten . De app wordt aangedreven door op Gemma gebaseerde modellen en is ontworpen om volledig offline te werken
.
Het overstijgt simpele transcriptie door te fungeren als een automatische spraakverbeteraar. Het verwijdert agressief stopwoordjes als "ehm" en "uh", corrigeert direct de grammatica en herstructureert ruwe, chaotische spraak tot samenhangende, professionele tekst . Dit maakt het meer een communicatiemiddel dan een notitie-app. De grootste onderscheidende factor is het prijskaartje: er is geen abonnement en geen gebruikslimiet
. De macOS-versie vereist macOS 13.0 of later en een Apple M1-chip of later, al vermeldt de App Store-pagina dat sommige geavanceerde, optionele functies cloudverwerking kunnen vereisen
.
Deze lancering bevestigt twee tegengestelde filosofieën voor lokale AI. Google's strategie is een "walled garden"-benadering: een samengestelde, door Google goedgekeurde set modellen, nauw geïntegreerd met eigen apps (Gallery voor verkenning, Eloquent voor dicteren) en een uniforme inferentie-engine (LiteRT-LM) met een CLI en Python API . Het doel is om een naadloze, consumentvriendelijke ervaring te bieden die direct uit de doos werkt.
Dit staat haaks op Ollama en LM Studio, die maximale flexibiliteit en keuzevrijheid bieden als open bibliotheken waar gebruikers elk compatibel model kunnen downloaden . Opvallend is dat zowel Ollama als LM Studio het open-weight Gemma 4 12B-model al ondersteunen, dus Google's model is niet exclusief voor zijn eigen stack
.
Google's voordeel ligt in de eersteklas optimalisatie, waarbij de eigen modellen specifiek zijn afgestemd op de eigen inferentie-engine voor Apple Silicon, wat resulteert in betere prestaties en lager geheugengebruik. De afweging voor de gebruiker is duidelijk: je krijgt een meer gepolijste en geïntegreerde ervaring, maar je kunt geen modellen buiten Google's samengestelde Gemma-familie draaien. Hiermee positioneert Google zich om gebruikers aan te trekken die waarde hechten aan betrouwbaarheid en gebruiksgemak boven experimentele vrijheid, wat een duidelijke tweesprong creëert voor lokale AI op de Mac.
Comments
0 comments