2026年4月2日リリース

Gemma 4 完全解説
4モデルの違い・ベンチマーク・ローカル動作

Google DeepMind が Gemini 3 同等の研究基盤から生み出したオープンモデル。Apache 2.0 で商用無料。

📦

Gemma 4 は 2026年4月2日にリリースされました。この記事の情報はリリース直後のモデルカード・公式ベンチマーク・Ollama/LM Studio の実測データをもとにしています。今後のアップデートで数値が変わる可能性があります。

Gemma 4 とは

Gemma 4 は Google DeepMind が公開したオープンウェイトモデルファミリーです。前世代の Gemma 3 から大幅に強化され、Gemini 3 と同じ研究基盤をもとに開発されています。

最大の特徴は 4 つのモデルサイズすべてが Apache 2.0 ライセンスで提供されている点です。商用利用・ファインチューニング・再配布が無料で行えます。スマートフォンで動く 2B クラスから、ワークステーション向けの 31B まで用途に応じて選べます。

Gemini との違い： Gemini はクラウド API 経由で使う Anthropic のクローズドモデルです。Gemma はローカルにダウンロードして自分のマシンで動かせるオープンウェイトモデルで、データが外部に送られません。

4 つのモデルと選び方

Gemma 4 は用途とハードウェアに応じた 4 モデルで構成されています。

エッジ・最軽量

E2B

実効 2.3B パラメータ

コンテキスト 128K 音声入力 ✓ 画像入力 ✓

スマートフォン・エッジ端末向け
効率最優先の用途に
音声入力がネイティブ対応
量子化で約 5GB VRAM

エッジ・バランス型

E4B

実効 4.5B パラメータ

コンテキスト 128K 音声入力 ✓ 画像入力 ✓

ほとんどの用途に最適なデフォルト
音声入力がネイティブ対応
ローカル PC で快適に動作
量子化で約 7GB VRAM

MoE・高速推論

26B A4B

総パラメータ 26B、実動 4B

コンテキスト 256K 画像入力 ✓

推論速度と品質のバランスが良い
ツール使用・エージェント用途に強い
128 エキスパート中 8 つを動的選択
量子化で約 14〜18GB VRAM

Dense・最高性能

31B

Dense 31B パラメータ

コンテキスト 256K 画像入力 ✓

Gemma 4 ファミリー最高性能
ファインチューニングに適した構造
十分な VRAM があるなら第一選択
量子化で約 20GB VRAM 以上

E2B・E4B と 26B・31B の大きな違い： E2B と E4B は音声（Audio）入力にネイティブ対応しています。26B A4B と 31B は音声入力に非対応（テキスト・画像のみ）です。音声を扱いたい場合は E2B か E4B を選んでください。

アーキテクチャの特徴

ハイブリッドアテンション

ローカルスライディングウィンドウアテンションとグローバルアテンションを交互に組み合わせた構造。短距離の文脈と長距離の文脈を効率よく処理し、処理速度とメモリ効率を両立します。

MoE（26B A4B）

26B A4B は 128 個のエキスパートモジュール（＋共有エキスパート 1 つ）を持ち、入力に応じて 8 つだけを動的に活性化します。推論時に実際に計算するのは 4B 相当のため、31B Dense より高速に動作します。

PLE（E2B・E4B）

E2B・E4B では Per-Layer Embeddings（PLE）技術を採用し、パラメータ効率を最大化。「E」は Effective（実効）パラメータを意味し、実際のモデルサイズより大きな能力を発揮します。

推論モード内蔵

Thinking モード（思考の連鎖）を組み込みで搭載。プロンプトで有効化すると段階的に問題を分解して推論します。数学・コーディング・論理問題で特に有効です。

ベンチマーク

主要なオープンウェイトモデルとの比較です。クローズドモデル（GPT-5・Claude）とは評価プロトコルが異なる場合があるため、オープンモデル間の相対比較として参照してください。

AIME 2026（数学・推論）

数学オリンピック級の問題を解く能力を測るベンチマーク。Gemma 3 は 20.8% だったため、Gemma 4 31B の 89.2% は世代間でほぼ 4 倍以上の大幅改善。

Gemma 4 31B89.2%

Gemma 4 26B A4B88.3%

Qwen 3.5 27B非公開

Llama 4 Scout（109B 総パラメータ）大幅に下回る

MMLU Pro（総合知識・推論）

14 分野 12,000 問以上の多肢選択問題。Qwen 3.5 27B がわずかに上回るが、Gemma 4 31B はパラメータ数で大きく勝る Llama 4 を超えている。

Qwen 3.5 27B86.1%

Gemma 4 31B85.2%

Gemma 4 26B A4B82.6%

LiveCodeBench v6（コーディング）

実際の競技プログラミング問題でコード生成能力を測定するベンチマーク。Codeforces ELO は Gemma 4 31B が 2,150（Gemma 3 は 110）と劇的に改善。

Gemma 4 31B80.0%

Gemma 4 26B A4B77.1%

τ²-bench（エージェント・ツール使用）

ツール呼び出しや複数ステップのタスク実行能力を評価するエージェント系ベンチマーク。

Gemma 4 26B A4B85.5%

推論時の実計算量は 4B 相当でこのスコア。コストと性能のバランスが優れている。

LMArena スコア（ユーザー評価）

人間がどちらの回答を好むか投票形式で決まる Elo スコア。オープンモデル中 3 位。

Gemma 4 31B1452

Gemma 4 26B A4B1441

Qwen 3.5 397B（総パラメータが 10 倍以上）と同等のスコアで、パラメータ効率の高さが際立つ。

ローカル動作の方法と必要スペック

Gemma 4 は Ollama・LM Studio・Unsloth から動かせます。量子化（Q4_K_M）を使えばメモリ使用量を 60% 程度削減できます。

E2B

VRAM（量子化）約 5GB

VRAM（FP16）約 8GB

想定環境スマホ・低スペック PC

E4B

VRAM（量子化）約 7GB

VRAM（FP16）約 12GB

想定環境RTX 3060 / M1 Mac

26B A4B

VRAM（量子化）約 14〜18GB

VRAM（FP16）約 28GB

想定環境RTX 4090 / M2 Pro Mac

31B

VRAM（量子化）約 20GB 以上

VRAM（FP16）約 62GB

想定環境A100 / DGX / Mac Studio

Ollama でのセットアップ

インストール（まだの場合）

curl -fsSL https://ollama.com/install.sh | sh

E4B（推奨スタート・量子化で約 7GB VRAM）

ollama run gemma4:e4b

26B A4B（MoE・量子化で約 14〜18GB VRAM）

ollama run gemma4:26b

31B Dense（最高性能・量子化で約 20GB VRAM 以上）

ollama run gemma4:31b

量子化を明示して取得（メモリを節約したい場合）

ollama run gemma4:e4b-q4_K_M

LM Studio でのセットアップ

LM Studio を使う場合は、アプリ内の検索バーで「gemma4」と入力してモデルを検索・ダウンロードするだけです。GUI で量子化形式を選べるため、VRAM が限られている場合は Q4_K_M を選択してください。

M5 MacBook Pro での実測値（参考）

32GB RAM の M5 MacBook Pro で E4B を動作させた場合の実測値です（コミュニティ報告値）。

項目	値
メモリ使用量	約 14GB
生成速度	35 tokens/s 以上
日本語品質	実用レベル（140 言語事前学習）

Gemma 3 からの主な進化点

音声入力のネイティブ対応

E2B・E4B で音声入力がモデルレベルで対応。Gemma 3 にはなかった機能で、音声 UI やポッドキャスト解析などの用途が広がった。

コンテキスト長の大幅拡張

26B A4B・31B で 256K トークンに拡張（Gemma 3 の最大 128K から 2 倍）。長文書・コードベース全体を一度に渡せる用途に有効。

MoE アーキテクチャの採用

26B A4B で MoE を導入。推論時の実計算量を 4B 相当に抑えながら、31B Dense に迫るベンチマーク性能を実現。コスト効率が大幅に向上。

推論モードの内蔵

Thinking モードを標準搭載。数学・コーディング・論理パズルで推論の精度が向上。Gemma 3 では外部プロンプトで対応する必要があった。

関数呼び出しの強化

ネイティブの関数呼び出し（Function Calling）機能が全モデルに組み込まれ、ツール使用・エージェント構築がより安定した。26B A4B の τ²-bench 85.5% がその性能を示している。

用途別モデル選択ガイド

やりたいこと	推奨モデル	理由
まず試してみたい	E4B	VRAM 7GB で動く。ほとんどの用途の出発点として最適
スマートフォン・組み込み	E2B	最軽量。エッジ端末で動かす前提ならこれ
音声入力を使いたい	E2B / E4B	音声入力は E2B・E4B のみ対応。26B・31B は非対応
ツール呼び出し・エージェント	26B A4B	τ²-bench 85.5%。MoE で速く動き、エージェント系に強い
コーディング・数学・推論	31B	AIME 89.2%・MMLU Pro 85.2%。性能最優先ならこれ
長文書・大規模コードベース分析	26B A4B / 31B	256K トークンで対応。E2B・E4B は 128K まで
ファインチューニング	31B Dense	MoE より Dense の方が微調整しやすい構造
商用アプリケーションへの組み込み	全モデル可	Apache 2.0 ライセンスで商用利用・再配布が無料