Ứng dụng hiện đã có mặt trên macOS, iOS và Android, nhưng phiên bản dành cho macOS làm nổi bật một chiến lược tuyển chọn mô hình cụ thể . Không giống như các thư viện mở của Ollama và LM Studio, vốn cho phép người dùng tải về hầu hết mọi mô hình tương thích, phiên bản macOS của AI Edge Gallery hiện chỉ hiển thị năm mô hình Gemma do Google tuyển chọn
. Theo báo cáo của 9to5Mac, các mô hình có sẵn bao gồm Gemma-4-12B-it, Gemma-4-E2B-it, Gemma-4-E4B-it, một biến thể Gemma-4 26B và FunctionGemma-270M
. Sự lựa chọn cẩn thận này chính là trái tim của chiến lược: một môi trường được kiểm soát và đảm bảo chất lượng
.
Về mặt kỹ thuật, hệ sinh thái được vận hành bởi công cụ suy luận LiteRT-LM của Google. Nó hỗ trợ các phần cứng phía sau là CPU, GPU và NPU trên các nền tảng Linux, macOS và Windows . Mô hình được giới thiệu để đo điểm chuẩn hiệu suất vẫn là Gemma-4-E2B (2.58 GB), và tài liệu chính thức cung cấp một cái nhìn rõ ràng về khả năng của nó trên một chiếc MacBook Pro M4
:
Bước nhảy vọt khổng lồ về tốc độ khi tăng tốc bằng GPU cho thấy công nghệ của Google được tinh chỉnh tốt như thế nào cho API Metal của Apple Silicon, mang lại trải nghiệm người dùng mượt mà, gần như tức thì.
Được phát hành theo giấy phép Apache 2.0, Gemma 4 12B chính là ngôi sao của lần ra mắt này . Kiến trúc của nó là điểm khác biệt lớn nhất. Đây là một transformer thuần giải mã (decoder-only) dạng 'đậm đặc' (dense), sử dụng cấu trúc giải mã tiên tiến tương tự như mô hình 'đậm đặc' Gemma 4 31B lớn hơn nhiều
.
Sự đổi mới quan trọng nằm ở thiết kế đa phương thức không cần bộ mã hóa (encoder-free). Hầu hết các mô hình đa phương thức sử dụng các bộ mã hóa riêng biệt và cồng kềnh cho thị giác (như Biến đổi Thị giác ViT) và âm thanh (như các lớp conformer) để chuyển đổi dữ liệu cho mô hình ngôn ngữ . Gemma 4 12B loại bỏ chúng hoàn toàn
. Thay vào đó, nó sử dụng:
Điều này cho phép mô hình xử lý một cách tự nhiên văn bản, hình ảnh, âm thanh và video trong một luồng thống nhất duy nhất . Google tuyên bố kiến trúc này mang lại "hiệu suất gần đạt đến mô hình MoE 26B của chúng tôi nhưng chỉ tốn chưa đến một nửa bộ nhớ," và tất cả đều có thể chạy trên các laptop tiêu dùng chỉ với 16 GB bộ nhớ hợp nhất
.
Các bài kiểm tra điểm chuẩn đã chứng minh cho sự tự tin này, cho thấy mô hình 12B có sức mạnh vượt trội hơn hẳn so với 'hạng cân' của mình. Trong bài kiểm tra GPQA Diamond (suy luận cấp độ sau đại học), nó đạt số điểm ấn tượng 78.8, gần với biến thể 26B. Trên các bài kiểm tra trắc nghiệm kiểu học thuật như MMLU Pro, nó đạt 77,2%, và trên bài kiểm tra toán cạnh tranh AIME 2026, nó đạt 77,5% . Trên LiveCodeBench dành cho khả năng sinh mã, nó đạt 72,5%, cho thấy năng lực thực tiễn mạnh mẽ trong các quy trình tác tử (agentic workflows) và suy luận đa bước
.
Hoàn thiện bộ ba sản phẩm là Google AI Edge Eloquent, một ứng dụng đọc chính tả tự định vị mình như một giải pháp thay thế trực tiếp và miễn phí cho các dịch vụ phiên âm trả phí . Ứng dụng này được vận hành bởi các mô hình dựa trên Gemma và được thiết kế để ưu tiên hoạt động ngoại tuyến ngay từ đầu
.
Nó vượt xa khả năng phiên âm đơn thuần bằng cách hoạt động như một công cụ tự động trau chuốt lời nói. Ứng dụng sẽ "mạnh tay cắt bỏ" những từ đệm như "ừm" và "à," sửa ngữ pháp một cách tức thì và cấu trúc lại bài phát biểu thô, lộn xộn thành văn bản mạch lạc, chuyên nghiệp . Điều này làm cho nó giống một công cụ giao tiếp hơn là một ứng dụng ghi chú. Điểm khác biệt chính nằm ở mức giá: không có phí đăng ký và không có giới hạn sử dụng
. Phiên bản macOS yêu cầu hệ điều hành từ macOS 13.0 trở lên và chip Apple M1 trở lên, mặc dù trang App Store lưu ý rằng một số tính năng nâng cao tùy chọn có thể yêu cầu xử lý trên đám mây
.
Lần ra mắt này thiết lập nên hai triết lý đối lập dành cho AI cục bộ. Chiến lược của Google là một cách tiếp cận "khu vườn có tường bao": một tập hợp các mô hình đã được Google tuyển chọn và phê duyệt, được tích hợp chặt chẽ với các ứng dụng bên thứ nhất mang thương hiệu của hãng (Gallery để khám phá, Eloquent để đọc chính tả) và một công cụ suy luận hợp nhất (LiteRT-LM) với giao diện dòng lệnh và Python API . Mục tiêu là cung cấp một trải nghiệm liền mạch, đẳng cấp người dùng phổ thông, có thể "chạy ngon lành" ngay từ đầu.
Điều này trái ngược trực tiếp với Ollama và LM Studio, những nền tảng ưu tiên sự linh hoạt và lựa chọn tối đa như các thư viện mở, nơi người dùng có thể tải về bất kỳ mô hình tương thích nào . Đáng chú ý, cả Ollama và LM Studio hiện đều đã hỗ trợ mô hình Gemma 4 12B với trọng số mở, vì vậy mô hình của Google không phải là độc quyền cho hệ sinh thái của riêng họ
.
Lợi thế của Google nằm ở việc tối ưu hóa bên thứ nhất, trong đó các mô hình của chính họ được tinh chỉnh riêng cho công cụ suy luận của họ trên Apple Silicon để có hiệu suất tốt hơn và mức sử dụng bộ nhớ thấp hơn. Sự đánh đổi cho người dùng là rất rõ ràng: bạn có được một trải nghiệm tinh tế và tích hợp hơn, nhưng bạn không thể chạy các mô hình bên ngoài dòng sản phẩm Gemma được tuyển chọn của Google. Điều này định vị Google ở vị trí có thể thu hút những người dùng coi trọng sự tin cậy và dễ sử dụng hơn là sự tự do thử nghiệm, tạo ra một ngã rẽ riêng biệt cho hành trình AI cục bộ trên máy Mac.
Comments
0 comments