Gemma 4 完全解説|4モデルの違い・ベンチマーク・ローカル動作方法

Gemma 4の4モデル構成とローカルAI動作を表すアイキャッチ画像 AI
2026年4月2日リリース

Gemma 4 完全解説
4モデルの違い・ベンチマーク・ローカル動作

Google DeepMind が Gemini 3 同等の研究基盤から生み出したオープンモデル。Apache 2.0 で商用無料。

📦

Gemma 4 は 2026年4月2日にリリースされました。この記事の情報はリリース直後のモデルカード・公式ベンチマーク・Ollama/LM Studio の実測データをもとにしています。今後のアップデートで数値が変わる可能性があります。

スポンサーリンク

Gemma 4 とは

Gemma 4 は Google DeepMind が公開したオープンウェイトモデルファミリーです。前世代の Gemma 3 から大幅に強化され、Gemini 3 と同じ研究基盤をもとに開発されています。

最大の特徴は 4 つのモデルサイズすべてが Apache 2.0 ライセンスで提供されている点です。商用利用・ファインチューニング・再配布が無料で行えます。スマートフォンで動く 2B クラスから、ワークステーション向けの 31B まで用途に応じて選べます。

Gemini との違い: Gemini はクラウド API 経由で使う Anthropic のクローズドモデルです。Gemma はローカルにダウンロードして自分のマシンで動かせるオープンウェイトモデルで、データが外部に送られません。

4 つのモデルと選び方

Gemma 4 は用途とハードウェアに応じた 4 モデルで構成されています。

エッジ・最軽量

E2B

実効 2.3B パラメータ

コンテキスト 128K 音声入力 ✓ 画像入力 ✓
  • スマートフォン・エッジ端末向け
  • 効率最優先の用途に
  • 音声入力がネイティブ対応
  • 量子化で約 5GB VRAM
エッジ・バランス型

E4B

実効 4.5B パラメータ

コンテキスト 128K 音声入力 ✓ 画像入力 ✓
  • ほとんどの用途に最適なデフォルト
  • 音声入力がネイティブ対応
  • ローカル PC で快適に動作
  • 量子化で約 7GB VRAM
MoE・高速推論

26B A4B

総パラメータ 26B、実動 4B

コンテキスト 256K 画像入力 ✓
  • 推論速度と品質のバランスが良い
  • ツール使用・エージェント用途に強い
  • 128 エキスパート中 8 つを動的選択
  • 量子化で約 14〜18GB VRAM
Dense・最高性能

31B

Dense 31B パラメータ

コンテキスト 256K 画像入力 ✓
  • Gemma 4 ファミリー最高性能
  • ファインチューニングに適した構造
  • 十分な VRAM があるなら第一選択
  • 量子化で約 20GB VRAM 以上

E2B・E4B と 26B・31B の大きな違い: E2B と E4B は音声(Audio)入力にネイティブ対応しています。26B A4B と 31B は音声入力に非対応(テキスト・画像のみ)です。音声を扱いたい場合は E2B か E4B を選んでください。

アーキテクチャの特徴

ハイブリッドアテンション

ローカルスライディングウィンドウアテンションとグローバルアテンションを交互に組み合わせた構造。短距離の文脈と長距離の文脈を効率よく処理し、処理速度とメモリ効率を両立します。

MoE(26B A4B)

26B A4B は 128 個のエキスパートモジュール(+共有エキスパート 1 つ)を持ち、入力に応じて 8 つだけを動的に活性化します。推論時に実際に計算するのは 4B 相当のため、31B Dense より高速に動作します。

PLE(E2B・E4B)

E2B・E4B では Per-Layer Embeddings(PLE)技術を採用し、パラメータ効率を最大化。「E」は Effective(実効)パラメータを意味し、実際のモデルサイズより大きな能力を発揮します。

推論モード内蔵

Thinking モード(思考の連鎖)を組み込みで搭載。プロンプトで有効化すると段階的に問題を分解して推論します。数学・コーディング・論理問題で特に有効です。

ベンチマーク

主要なオープンウェイトモデルとの比較です。クローズドモデル(GPT-5・Claude)とは評価プロトコルが異なる場合があるため、オープンモデル間の相対比較として参照してください。

AIME 2026(数学・推論)

数学オリンピック級の問題を解く能力を測るベンチマーク。Gemma 3 は 20.8% だったため、Gemma 4 31B の 89.2% は世代間でほぼ 4 倍以上の大幅改善。

Gemma 4 31B89.2%
Gemma 4 26B A4B88.3%
Qwen 3.5 27B非公開
Llama 4 Scout(109B 総パラメータ)大幅に下回る

MMLU Pro(総合知識・推論)

14 分野 12,000 問以上の多肢選択問題。Qwen 3.5 27B がわずかに上回るが、Gemma 4 31B はパラメータ数で大きく勝る Llama 4 を超えている。

Qwen 3.5 27B86.1%
Gemma 4 31B85.2%
Gemma 4 26B A4B82.6%

LiveCodeBench v6(コーディング)

実際の競技プログラミング問題でコード生成能力を測定するベンチマーク。Codeforces ELO は Gemma 4 31B が 2,150(Gemma 3 は 110)と劇的に改善。

Gemma 4 31B80.0%
Gemma 4 26B A4B77.1%

τ²-bench(エージェント・ツール使用)

ツール呼び出しや複数ステップのタスク実行能力を評価するエージェント系ベンチマーク。

Gemma 4 26B A4B85.5%

推論時の実計算量は 4B 相当でこのスコア。コストと性能のバランスが優れている。

LMArena スコア(ユーザー評価)

人間がどちらの回答を好むか投票形式で決まる Elo スコア。オープンモデル中 3 位。

Gemma 4 31B1452
Gemma 4 26B A4B1441

Qwen 3.5 397B(総パラメータが 10 倍以上)と同等のスコアで、パラメータ効率の高さが際立つ。

ローカル動作の方法と必要スペック

Gemma 4 は Ollama・LM Studio・Unsloth から動かせます。量子化(Q4_K_M)を使えばメモリ使用量を 60% 程度削減できます。

E2B
VRAM(量子化)約 5GB
VRAM(FP16)約 8GB
想定環境スマホ・低スペック PC
E4B
VRAM(量子化)約 7GB
VRAM(FP16)約 12GB
想定環境RTX 3060 / M1 Mac
26B A4B
VRAM(量子化)約 14〜18GB
VRAM(FP16)約 28GB
想定環境RTX 4090 / M2 Pro Mac
31B
VRAM(量子化)約 20GB 以上
VRAM(FP16)約 62GB
想定環境A100 / DGX / Mac Studio

Ollama でのセットアップ

インストール(まだの場合)
curl -fsSL https://ollama.com/install.sh | sh
E4B(推奨スタート・量子化で約 7GB VRAM)
ollama run gemma4:e4b
26B A4B(MoE・量子化で約 14〜18GB VRAM)
ollama run gemma4:26b
31B Dense(最高性能・量子化で約 20GB VRAM 以上)
ollama run gemma4:31b
量子化を明示して取得(メモリを節約したい場合)
ollama run gemma4:e4b-q4_K_M

LM Studio でのセットアップ

LM Studio を使う場合は、アプリ内の検索バーで「gemma4」と入力してモデルを検索・ダウンロードするだけです。GUI で量子化形式を選べるため、VRAM が限られている場合は Q4_K_M を選択してください。

M5 MacBook Pro での実測値(参考)

32GB RAM の M5 MacBook Pro で E4B を動作させた場合の実測値です(コミュニティ報告値)。

項目
メモリ使用量 約 14GB
生成速度 35 tokens/s 以上
日本語品質 実用レベル(140 言語事前学習)

Gemma 3 からの主な進化点

1

音声入力のネイティブ対応

E2B・E4B で音声入力がモデルレベルで対応。Gemma 3 にはなかった機能で、音声 UI やポッドキャスト解析などの用途が広がった。

2

コンテキスト長の大幅拡張

26B A4B・31B で 256K トークンに拡張(Gemma 3 の最大 128K から 2 倍)。長文書・コードベース全体を一度に渡せる用途に有効。

3

MoE アーキテクチャの採用

26B A4B で MoE を導入。推論時の実計算量を 4B 相当に抑えながら、31B Dense に迫るベンチマーク性能を実現。コスト効率が大幅に向上。

4

推論モードの内蔵

Thinking モードを標準搭載。数学・コーディング・論理パズルで推論の精度が向上。Gemma 3 では外部プロンプトで対応する必要があった。

5

関数呼び出しの強化

ネイティブの関数呼び出し(Function Calling)機能が全モデルに組み込まれ、ツール使用・エージェント構築がより安定した。26B A4B の τ²-bench 85.5% がその性能を示している。

用途別モデル選択ガイド

やりたいこと 推奨モデル 理由
まず試してみたい E4B VRAM 7GB で動く。ほとんどの用途の出発点として最適
スマートフォン・組み込み E2B 最軽量。エッジ端末で動かす前提ならこれ
音声入力を使いたい E2B / E4B 音声入力は E2B・E4B のみ対応。26B・31B は非対応
ツール呼び出し・エージェント 26B A4B τ²-bench 85.5%。MoE で速く動き、エージェント系に強い
コーディング・数学・推論 31B AIME 89.2%・MMLU Pro 85.2%。性能最優先ならこれ
長文書・大規模コードベース分析 26B A4B / 31B 256K トークンで対応。E2B・E4B は 128K まで
ファインチューニング 31B Dense MoE より Dense の方が微調整しやすい構造
商用アプリケーションへの組み込み 全モデル可 Apache 2.0 ライセンスで商用利用・再配布が無料

まとめ

  • Gemma 4 は 2026年4月2日リリース。E2B・E4B・26B A4B・31B の 4 モデル構成、全モデル Apache 2.0 で商用無料
  • 音声入力は E2B・E4B のみ。26B・31B はテキスト・画像のみ対応
  • コンテキスト長は E2B/E4B が 128K、26B A4B/31B が 256K
  • 26B A4B は MoE アーキテクチャ(128 エキスパート中 8 つを動的選択)。推論時の実計算量は 4B 相当で高速
  • ベンチマーク:31B は AIME 2026 で 89.2%、MMLU Pro で 85.2%。26B A4B は τ²-bench で 85.5%
  • Ollama / LM Studio から動かせる。E4B は量子化で約 7GB VRAM。まず試すなら ollama run gemma4:e4b
  • Gemma 3 からの主な進化:音声入力対応・コンテキスト長 2 倍・MoE 採用・推論モード内蔵
タイトルとURLをコピーしました