Gemma 4 完全解説
4モデルの違い・ベンチマーク・ローカル動作
Google DeepMind が Gemini 3 同等の研究基盤から生み出したオープンモデル。Apache 2.0 で商用無料。
Gemma 4 とは
Gemma 4 は Google DeepMind が公開したオープンウェイトモデルファミリーです。前世代の Gemma 3 から大幅に強化され、Gemini 3 と同じ研究基盤をもとに開発されています。
最大の特徴は 4 つのモデルサイズすべてが Apache 2.0 ライセンスで提供されている点です。商用利用・ファインチューニング・再配布が無料で行えます。スマートフォンで動く 2B クラスから、ワークステーション向けの 31B まで用途に応じて選べます。
Gemini との違い: Gemini はクラウド API 経由で使う Anthropic のクローズドモデルです。Gemma はローカルにダウンロードして自分のマシンで動かせるオープンウェイトモデルで、データが外部に送られません。
4 つのモデルと選び方
Gemma 4 は用途とハードウェアに応じた 4 モデルで構成されています。
E2B
実効 2.3B パラメータ
- スマートフォン・エッジ端末向け
- 効率最優先の用途に
- 音声入力がネイティブ対応
- 量子化で約 5GB VRAM
E4B
実効 4.5B パラメータ
- ほとんどの用途に最適なデフォルト
- 音声入力がネイティブ対応
- ローカル PC で快適に動作
- 量子化で約 7GB VRAM
26B A4B
総パラメータ 26B、実動 4B
- 推論速度と品質のバランスが良い
- ツール使用・エージェント用途に強い
- 128 エキスパート中 8 つを動的選択
- 量子化で約 14〜18GB VRAM
31B
Dense 31B パラメータ
- Gemma 4 ファミリー最高性能
- ファインチューニングに適した構造
- 十分な VRAM があるなら第一選択
- 量子化で約 20GB VRAM 以上
E2B・E4B と 26B・31B の大きな違い: E2B と E4B は音声(Audio)入力にネイティブ対応しています。26B A4B と 31B は音声入力に非対応(テキスト・画像のみ)です。音声を扱いたい場合は E2B か E4B を選んでください。
アーキテクチャの特徴
ハイブリッドアテンション
ローカルスライディングウィンドウアテンションとグローバルアテンションを交互に組み合わせた構造。短距離の文脈と長距離の文脈を効率よく処理し、処理速度とメモリ効率を両立します。
MoE(26B A4B)
26B A4B は 128 個のエキスパートモジュール(+共有エキスパート 1 つ)を持ち、入力に応じて 8 つだけを動的に活性化します。推論時に実際に計算するのは 4B 相当のため、31B Dense より高速に動作します。
PLE(E2B・E4B)
E2B・E4B では Per-Layer Embeddings(PLE)技術を採用し、パラメータ効率を最大化。「E」は Effective(実効)パラメータを意味し、実際のモデルサイズより大きな能力を発揮します。
推論モード内蔵
Thinking モード(思考の連鎖)を組み込みで搭載。プロンプトで有効化すると段階的に問題を分解して推論します。数学・コーディング・論理問題で特に有効です。
ベンチマーク
主要なオープンウェイトモデルとの比較です。クローズドモデル(GPT-5・Claude)とは評価プロトコルが異なる場合があるため、オープンモデル間の相対比較として参照してください。
AIME 2026(数学・推論)
数学オリンピック級の問題を解く能力を測るベンチマーク。Gemma 3 は 20.8% だったため、Gemma 4 31B の 89.2% は世代間でほぼ 4 倍以上の大幅改善。
MMLU Pro(総合知識・推論)
14 分野 12,000 問以上の多肢選択問題。Qwen 3.5 27B がわずかに上回るが、Gemma 4 31B はパラメータ数で大きく勝る Llama 4 を超えている。
LiveCodeBench v6(コーディング)
実際の競技プログラミング問題でコード生成能力を測定するベンチマーク。Codeforces ELO は Gemma 4 31B が 2,150(Gemma 3 は 110)と劇的に改善。
τ²-bench(エージェント・ツール使用)
ツール呼び出しや複数ステップのタスク実行能力を評価するエージェント系ベンチマーク。
推論時の実計算量は 4B 相当でこのスコア。コストと性能のバランスが優れている。
LMArena スコア(ユーザー評価)
人間がどちらの回答を好むか投票形式で決まる Elo スコア。オープンモデル中 3 位。
Qwen 3.5 397B(総パラメータが 10 倍以上)と同等のスコアで、パラメータ効率の高さが際立つ。
ローカル動作の方法と必要スペック
Gemma 4 は Ollama・LM Studio・Unsloth から動かせます。量子化(Q4_K_M)を使えばメモリ使用量を 60% 程度削減できます。
Ollama でのセットアップ
curl -fsSL https://ollama.com/install.sh | sh
ollama run gemma4:e4b
ollama run gemma4:26b
ollama run gemma4:31b
ollama run gemma4:e4b-q4_K_M
LM Studio でのセットアップ
LM Studio を使う場合は、アプリ内の検索バーで「gemma4」と入力してモデルを検索・ダウンロードするだけです。GUI で量子化形式を選べるため、VRAM が限られている場合は Q4_K_M を選択してください。
M5 MacBook Pro での実測値(参考)
32GB RAM の M5 MacBook Pro で E4B を動作させた場合の実測値です(コミュニティ報告値)。
| 項目 | 値 |
|---|---|
| メモリ使用量 | 約 14GB |
| 生成速度 | 35 tokens/s 以上 |
| 日本語品質 | 実用レベル(140 言語事前学習) |
Gemma 3 からの主な進化点
音声入力のネイティブ対応
E2B・E4B で音声入力がモデルレベルで対応。Gemma 3 にはなかった機能で、音声 UI やポッドキャスト解析などの用途が広がった。
コンテキスト長の大幅拡張
26B A4B・31B で 256K トークンに拡張(Gemma 3 の最大 128K から 2 倍)。長文書・コードベース全体を一度に渡せる用途に有効。
MoE アーキテクチャの採用
26B A4B で MoE を導入。推論時の実計算量を 4B 相当に抑えながら、31B Dense に迫るベンチマーク性能を実現。コスト効率が大幅に向上。
推論モードの内蔵
Thinking モードを標準搭載。数学・コーディング・論理パズルで推論の精度が向上。Gemma 3 では外部プロンプトで対応する必要があった。
関数呼び出しの強化
ネイティブの関数呼び出し(Function Calling)機能が全モデルに組み込まれ、ツール使用・エージェント構築がより安定した。26B A4B の τ²-bench 85.5% がその性能を示している。
用途別モデル選択ガイド
| やりたいこと | 推奨モデル | 理由 |
|---|---|---|
| まず試してみたい | E4B | VRAM 7GB で動く。ほとんどの用途の出発点として最適 |
| スマートフォン・組み込み | E2B | 最軽量。エッジ端末で動かす前提ならこれ |
| 音声入力を使いたい | E2B / E4B | 音声入力は E2B・E4B のみ対応。26B・31B は非対応 |
| ツール呼び出し・エージェント | 26B A4B | τ²-bench 85.5%。MoE で速く動き、エージェント系に強い |
| コーディング・数学・推論 | 31B | AIME 89.2%・MMLU Pro 85.2%。性能最優先ならこれ |
| 長文書・大規模コードベース分析 | 26B A4B / 31B | 256K トークンで対応。E2B・E4B は 128K まで |
| ファインチューニング | 31B Dense | MoE より Dense の方が微調整しやすい構造 |
| 商用アプリケーションへの組み込み | 全モデル可 | Apache 2.0 ライセンスで商用利用・再配布が無料 |
まとめ
- Gemma 4 は 2026年4月2日リリース。E2B・E4B・26B A4B・31B の 4 モデル構成、全モデル Apache 2.0 で商用無料
- 音声入力は E2B・E4B のみ。26B・31B はテキスト・画像のみ対応
- コンテキスト長は E2B/E4B が 128K、26B A4B/31B が 256K
- 26B A4B は MoE アーキテクチャ(128 エキスパート中 8 つを動的選択)。推論時の実計算量は 4B 相当で高速
- ベンチマーク:31B は AIME 2026 で 89.2%、MMLU Pro で 85.2%。26B A4B は τ²-bench で 85.5%
- Ollama / LM Studio から動かせる。E4B は量子化で約 7GB VRAM。まず試すなら
ollama run gemma4:e4b - Gemma 3 からの主な進化:音声入力対応・コンテキスト長 2 倍・MoE 採用・推論モード内蔵

