5つのモデルサイズすべてにQATチェックポイントが提供されており、それぞれに投機的デコード用のドラフターモデルも用意されています。実用的なメモリ使用量は、BF16とQAT 4ビットの間で劇的に変化します。
| モデル | アーキテクチャ | アクティブパラメータ | BF16時メモリ | QAT 4-bit時メモリ | 主なターゲットハードウェア |
|---|---|---|---|---|---|
| E2B | Dense + PLE | 約23億(埋め込み込みで51億) | 約9.6 GB | 約3.2 GB (Q4_0); 約1 GB (モバイル形式) | スマホ、エッジデバイス、ブラウザ |
| E4B | Dense + PLE | 約45億(埋め込み込みで80億) | 約15 GB | 約5 GB (Q4_0) | ミドルレンジGPU、メモリ多めのスマホ |
| 12B | Dense, encoder-free統一マルチモーダル | 約119.5億 | 約24 GB | 約7 GB (Q4_0) | 8 GB GPU搭載PC、ゲーミングノートPC |
| 26B A4B | Mixture of Experts (MoE) | 約38億 / 全260億 | 約48 GB | 約15 GB (Q4_0) | 12~16 GB GPU、ハイエンドワークステーション |
| 31B | Dense | 約307億 | 約58 GB | 約17~18 GB (Q4_0) | 24 GB GPU (RTX 3090/4090)、大容量VRAM環境 |
特に注目すべきは、26B A4Bです。これはMoE(Mixture of Experts)アーキテクチャを採用しており、総パラメータ数は260億に上る一方、トークン処理ごとに実際にアクティブになるのは約38億のパラメータのみです。これは、約40億パラメータモデルに近い計算コストで、はるかに大規模で高密度なモデルに匹敵する推論能力を提供することを意味します。4ビット形式なら、多くの開発者がすでに所有している12~16 GBのGPUで動作します
。
このリリースにおける最大の注意点は、QATの重みを単純にQ4_0に変換すると、精度が大幅に低下する可能性があることです。 Unslothのドキュメントによると、26BモデルのQAT重みを安易にQ4_0変換した場合、Top-1精度はわずか約70.2%にとどまりました。Unslothの最適化手法「Dynamic」では85.6%まで回復しましたが、これは変換方法論の選択が、QAT本来の性能を引き出す上で決定的に重要であることを示しています。
ほとんどのユーザーにとっては、提供されている公式のcompressed-tensorsまたはGGUFチェックポイントから始めるのが最も安全で確実な道と言えるでしょう。
QAT 4ビット化がもたらす真の価値は、単なるメモリ削減ではなく、ローカルAI推論の新たなハードウェア地図を描き出したことにあります。
スマートフォンとエッジデバイス:
E2Bはモバイル向けに設計されたモデルです。GoogleのLiteRT-LMフレームワークを使えば、2ビットと4ビットの量子化により1.5 GB未満のRAMでもE2Bを実行できます。Google Playストアの「AI Edge Gallery」アプリから、E2BやE4Bを完全に端末上で選択・実行することも可能です
。テキスト、画像、音声入力にネイティブ対応しているため、リアルタイム音声翻訳や画像質問応答といった機能を、クラウド接続なしで実現できる可能性を秘めています
。
8 GB GPU:
QATデプロイメントのスイートスポットです。E2B(約3.2 GB)、E4B(約5 GB)、さらに12Bモデル(約7 GB)は、いずれも8 GBのVRAMに快適に収まります。つまり、ミドルレンジのノートPCや数世代前のデスクトップ向けGPU(RTX 2070など)でも、256Kトークンものコンテキストウィンドウを持つ統合マルチモーダルモデルが動作する時代が到来したのです。
12~16 GB GPU:
このクラスには26B A4B(Q4_0で約15 GB)が適合し、RTX 3080、4070 Ti、4080などが現実的な選択肢となります。MoEアーキテクチャのおかげで、同クラスの巨大モデルと比較して推論遅延が短く、より軽快に動作する点も見逃せません
。
20~24 GB GPU:
最重量級の31Bモデルも、Q4_0なら約17~18 GBまで圧縮され、RTX 3090や4090ユーザーにとって現実的な範囲に収まります。このモデルを16ビット精度で動かそうとすると60 GB近いVRAMが必要で、コンシューマー向けGPUでは全く手の届かない存在でした。QAT 4ビット化こそが、Gemma 4最大のモデルを高性能な個人向けGPUでも動かせるようにする鍵です。
現実的な注意点: ここで示したメモリ使用量は、あくまでモデルの重み自体のサイズです。実際の実行時には、長大なコンテキストを扱うためのKVキャッシュなどのオーバーヘッドが数ギガバイト単位で追加されます。特に31Bモデルで256Kのコンテキストを扱う場合、必要なメモリは基本の重みサイズを大幅に上回り、コミュニティの報告では20GB前半まで必要になるケースもあるようです。常に、記載された数値よりも多めのVRAMを余裕として見積もるようにしましょう。
実用面から見ると、このリリースは「このモデル、ローカルで動かせますか?」という問いに対するデフォルトの答えを変えてしまいます。主要なオープンウェイトモデルファミリーが、QATチェックポイントを後付けではなく、最初から第一級の要素として提供するのはこれが初めてです。
その影響は、以下のような分野に広がります。
プライバシーが重視される領域:
医療、法律、パーソナルアシスタントといった、これまでクラウドAPIへの依存が前提だったアプリケーションも、ノートPCやスマートフォン上で完全に動作させることが現実的になります。QATによって推論品質が十分に保たれるため、ローカル処理への移行が一気に加速するでしょう。
オフラインおよびエッジ環境での活用:
安定したネット接続が期待できない現場調査や災害対応、産業環境においても、高性能なマルチモーダルモデルを汎用的なハードウェアで展開できる道が開けます。E2Bのオーディオ対応と1 GBモバイル量子化が組み合わされば、一般的なスマートフォンでのリアルタイム音声翻訳も、夢物語ではなくなります。
開発者ツールとIDEへの統合:
12Bおよび26Bモデルは、多くの開発者がすでに持っているハードウェアに適合します。これにより、コード補完、リファクタリング、ドキュメント生成などを、レイテンシやAPIコストの制約なしにローカルで実行可能になります。
実験とファインチューニングの民主化:
小規模な研究チームや個人開発者にとって、A100やH100のクラスタを用意するのはコスト面で大きな障壁でした。QAT版Gemma 4の登場は、研究開発への参入障壁を劇的に引き下げ、12Bから31Bクラスのモデルを用いたカスタマイズや、ドメイン特化型のファインチューニングを、個人のコンシューマーハードウェアで行うことを可能にします。
今回のQATチェックポイントは、ベースのGemma 4モデルと同様に寛容なApache 2.0ライセンスの下で公開され、すでにHugging Faceから全5モデルサイズがダウンロード可能です。「本格的なAI」の実行環境に関する常識が、今、まさに書き換えられようとしています。
Comments
0 comments