Claude Sonnet 5 vs Gemini 3.1 Pro
徹底比較
ミドルレンジ最強候補の2モデルを、価格・ベンチマーク・コンテキスト窓の観点から比較します。
AnthropicのClaude Sonnet 5と、GoogleのGemini 3.1 Proは、どちらも「フラッグシップに迫る性能を、フラッグシップより安く」を掲げるミドルレンジの主力モデルです。価格帯が近いだけに、どちらを選ぶべきか迷っている方も多いのではないでしょうか。
本記事では、最新のベンチマークデータと価格体系を比較し、用途別にどちらを選ぶべきかを具体的に整理します。
基本スペック比較
| 項目 | Claude Sonnet 5 | Gemini 3.1 Pro |
|---|---|---|
| 提供元 | Anthropic | |
| 入力価格(100万トークン) | $3.00(導入価格 $2.00・2026年8月31日まで) | $2.00(20万トークン超は$4.00) |
| 出力価格(100万トークン) | $15.00(導入価格 $10.00・2026年8月31日まで) | $12.00(20万トークン超は$18.00) |
| コンテキスト窓 | 100万トークン(常時・追加料金なし) | 100万トークン(一部100〜200万トークン対応) |
| 最大出力 | 128K | 64K |
| Effortレベル | low〜max(5段階、xhigh対応) | — |
※Sonnet 5の導入価格は2026年8月31日までの期間限定です。Gemini 3.1 Proは20万トークンを超えるプロンプトで単価が上がる階層制料金を採用しています。
ベンチマーク比較
コーディング・推論・PC操作系の主要ベンチマークで、Sonnet 5が全項目でGemini 3.1 Proを上回っています。
| ベンチマーク | Claude Sonnet 5 | Gemini 3.1 Pro |
|---|---|---|
| SWE-bench Verified(コーディング精度) | 92.4% | 80.6% |
| SWE-bench Pro(実務型コーディング) | 63.2% | 54.2% |
| GPQA Diamond(博士レベル科学問題) | 96.2% | 94.3% |
| ARC-AGI-2(抽象推論) | 84.7% | 77.1% |
| OSWorld-Verified(PC操作・Computer Use) | 88.3% | — |
※スコアは各社発表時の公式資料に基づきます(測定条件は完全一致ではありません)。
特にSWE-bench Verifiedでの差(92.4% vs 80.6%)は11.8ポイントと大きく、実務コーディングにおけるSonnet 5の優位は明確です。ただしGPQA Diamond(科学知識問題)では94.3%と僅差まで迫っており、Gemini 3.1 Proも高難度の知識タスクでは競争力を保っています。
コンテキスト窓の違いに注意
Sonnet 5:常時1M、追加料金なし
Claude Sonnet 5はAnthropic APIにおいて常に100万トークンのコンテキスト窓で動作し、200Kトークンを超えても料金は変わりません。200K以下の従来モデルのような別料金体系は存在しない、シンプルな価格設計です。
Gemini 3.1 Pro:階層制で超過分は割高に
Gemini 3.1 Proは基本1Mトークンのコンテキストを持ちますが、20万トークンを超えるプロンプトは入力$4/出力$18の高い料金階層に切り替わります。長大なドキュメントを頻繁に扱う場合、実質コストがSonnet 5より高くなるケースがあります。
用途別:どちらを選ぶべきか
Sonnet 5が向いているケース
- コーディング・エージェント型のタスク(SWE-bench系で明確に優位)
- 長いドキュメントを頻繁に扱う(200K超でも単価が変わらない)
- Claude Codeでのサブエージェント運用(実装役として実績あり)
- PC操作・Computer Useを伴う自動化タスク
導入価格が適用される8月31日までは、価格面でもGemini 3.1 Proとほぼ互角かそれ以下になるため、今始めるなら特に有利です。
Gemini 3.1 Proが向いているケース
- マルチモーダル処理(画像・音声・動画・コードを横断)
- 200Kトークン以内の短〜中規模タスクでコストを最小化したい
- Google Workspace・Google Cloudとの連携を重視する環境
- 科学知識系の高難度な一問一答タスク(GPQA Diamondで健闘)
マルチモーダル対応の幅広さはGeminiシリーズの伝統的な強みで、テキスト以外のモダリティを扱う場面では依然として有力な選択肢です。
コスト試算:どちらが実際に安いか
入力10万トークン・出力5万トークンの中規模タスクを想定して試算します。
| モデル | 入力コスト | 出力コスト | 合計 |
|---|---|---|---|
| Sonnet 5(導入価格・8/31まで) | $0.20 | $0.50 | $0.70 |
| Sonnet 5(通常価格) | $0.30 | $0.75 | $1.05 |
| Gemini 3.1 Pro(20万トークン以内) | $0.20 | $0.60 | $0.80 |
導入価格適用中のSonnet 5がもっとも安く、通常価格に戻ってもGemini 3.1 Proとの差はわずかです。200Kトークンを超えるタスクではGemini 3.1 Proの階層制料金が発動するため、その時点でSonnet 5の優位はさらに広がります。
ベンチマークだけで判断しない
ベンチマークスコアはあくまで標準化されたテスト条件での数値です。実務では、既存の開発環境との親和性(Claude CodeかGemini CLIか)、社内で使っているクラウド基盤(AWS/GCP)、マルチモーダル要件の有無なども選定基準に含めるべきです。
よくある質問
Q. コーディング用途なら迷わずSonnet 5でいい?
A. SWE-bench Verified・SWE-bench Pro・OSWorld-Verifiedのいずれもコーディング/PC操作系ではSonnet 5が明確に上回っており、Claude Codeというエージェント実行環境も充実しています。コーディング用途であればSonnet 5を優先する合理性は高いです。
Q. 画像や動画を扱うタスクはGeminiの方が良い?
A. Geminiシリーズはマルチモーダル対応の幅広さで伝統的に強みを持っています。テキスト以外のモダリティを本格的に扱う場合は、Gemini 3.1 Proも比較検討する価値があります。
Q. Sonnet 5の導入価格はいつまで?
A. 2026年8月31日までです。それ以降は入力$3/出力$15の通常価格に戻ります。詳しくは関連記事で解説しています。
Q. 200Kトークンを超えるタスクが多い場合はどちらが得?
A. Sonnet 5です。Anthropic APIでは200K超でも料金が変わりませんが、Gemini 3.1 Proは20万トークン超で単価が上がる階層制のため、長大なコンテキストを扱うほどSonnet 5が有利になります。
まとめ
本記事のポイント
- 主要ベンチマークはSWE-bench Verified・Pro・GPQA Diamond・ARC-AGI-2すべてでSonnet 5が優位
- コンテキスト窓はSonnet 5が常時1M・追加料金なし。Gemini 3.1 Proは20万トークン超で単価が上がる
- コーディング・エージェント運用はSonnet 5、マルチモーダル・Google連携重視ならGemini 3.1 Pro
- Sonnet 5は8月31日までの導入価格で、今始めるのがもっともコスト面で有利
両モデルとも性能面では十分に実用的な水準に達しています。最終的な選択は、既存の開発環境やクラウド基盤との親和性、扱うデータのモダリティを軸に判断するのがおすすめです。
※本記事の情報は2026年7月時点のものです。価格・性能は変更される可能性があるため、最新情報は各社公式サイトをご確認ください。


