2026年4月23日リリース

GPT-5.5（Spud）完全解説

エージェントAIの新クラス誕生——性能・料金・GPT-5.4との違いをベンチマークで徹底比較

2026年4月23日、OpenAIは新モデル GPT-5.5（コードネーム：Spud）を正式発表しました。GPT-5.4のリリースからわずか約6週間での後継モデル投入です。

GPT-5.5は単なる性能改善版ではありません。OpenAIは「新しいクラスのインテリジェンス（a new class of intelligence）」と表現し、質問に答えるAIから自律的に複雑な仕事を遂行するエージェントAIへの転換を明確に打ち出しています。

本記事では、GPT-5.5のすべて——特徴・ベンチマーク・料金・利用方法・競合との比較まで——を徹底解説します。

1. GPT-5.5（Spud）とは

GPT-5.5は OpenAI が2026年4月23日にリリースした最新の大規模言語モデルです。開発チーム内でのコードネームは “Spud”（スパッド）。GPT-5.4の微調整版ではなく、完全に再トレーニングされた新世代モデルです。

GPT-5.5 基本情報

正式名称: GPT-5.5（コードネーム: Spud）
発表日: 2026年4月23日
前モデルからの期間: GPT-5.4から約6週間
位置づけ: 完全再トレーニング済みの新世代エージェントモデル
コンテキスト長: 最大1,000,000トークン（実用的な全域利用を初実現）
モダリティ: テキスト・画像・音声・動画（オムニモーダル）

OpenAI が「新しいクラス」と呼ぶ理由

Greg Brockman（共同創業者・社長）は「より直感的なコンピューティングへの重要な一歩」と表現。従来の「指示 → 回答」型 AI から、「目標を伝えるだけで計画・実行・検証まで自律的にこなす AI」への質的な変化を強調しています。

Mark Chen（最高研究責任者）は「科学・技術的ワークフローで明確な向上が見られる」とコメントしており、研究・エンジニアリング・法律などの専門業務での実用性を特に強調しています。

2. 主要な新機能・特徴

① エージェント性能の大幅向上

GPT-5.5 最大の進化ポイントです。複雑な仕事を「計画 → ツール使用 → 検証 → 完遂」の一連フローで自律的に実行できるようになりました。単発の質問に答えるだけでなく、数十ステップにわたる作業を人間の介入なしに進められます。

実例：11分で数学教育アプリが完成

ある数学教授が代数幾何学のインタラクティブアプリを 1プロンプト・11分 で構築。GPT-5.5 が設計・コーディング・テストまで自律的に完了したとOpenAIが紹介しています。

② トークン効率が約40%向上

同等のタスクを GPT-5.4 比で約40%少ないトークンで完了します。API 料金はGPT-5.4の約2倍に設定されていますが、トークン消費量が減ることで実質的なコスト上昇は抑制される見込みです。

③ 1Mトークンの実用化

GPT-5.4も1Mトークンのコンテキストをサポートしていましたが、128Kを超えると性能が低下するという課題がありました。GPT-5.5は1Mトークン全域で実用的な性能を維持する初のモデルです。長大なコードベース・法律文書・研究論文の全体を一度に処理できます。

④ ネイティブ・コンピュータ操作

ブラウザやデスクトップアプリを直接操作する「コンピュータ・ユース」機能が標準搭載されました。ウェブ検索・データ入力・スプレッドシート操作・スケジュール管理といった反復業務を AI が直接実行できます。

⑤ 直感的な意図理解

より少ない指示でユーザーの意図を把握し、作業を遂行する能力が向上しています。「〜をやっておいて」という曖昧な指示でも、文脈から適切な行動を推定して実行します。

⑥ オムニモーダル

テキスト・画像・音声・動画をネイティブに処理します。マルチモーダルな入力を受け付け、複合的なコンテンツの分析・生成が可能です。

3. ベンチマーク比較

OpenAI が公開したベンチマーク結果を整理します。GPT-5.5はエージェント系・長文処理・業務自動化で突出した性能を示す一方、ソフトウェアエンジニアリング特化の指標ではClaude Opus 4.7に劣る面もあります。

主要ベンチマーク結果

ベンチマーク	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0（コマンドライン）	82.7%	75.1%	69.4%
Expert-SWE（コーディング・社内評価）	73.1%	68.5%	—
SWE-Bench Pro（実世界GitHub課題）	58.6%	—	64.3%
GDPval（44職種のホワイトカラー業務）	84.9%	—	—
OSWorld-Verified（OS操作）	78.7%	—	—
MRCR v2（512K〜1M）（長文理解）	74.0%	36.6%	32.2%
FrontierMath Tier 4（高度数学）	35.4%	—	22.9%
Humanity’s Last Exam（ツールなし）	41.4%	—	46.9%
BigLaw Bench（法律業務）	91.7%	91.0%	—
Tau2-bench Telecom	98.0%	—	—

「全モデル最高」ではない点に注意

GPT-5.5はエージェント系・長文処理・業務自動化・数学で首位ですが、SWE-Bench Pro（実世界ソフトウェアエンジニアリング）ではClaude Opus 4.7（64.3%）に劣り（58.6%）、ツールなし推論でもClaude Opus 4.7にやや負けています。得意分野での突出と苦手分野の両面を理解した上で使い分けることが重要です。

長文理解での大幅向上

特筆すべきは長文理解の改善です。MRCR v2（512K〜1M）で GPT-5.4の36.6%から 74.0%へと倍増。競合の Claude Opus 4.7（32.2%）を大きく上回っており、長大な文書を扱う業務では圧倒的な優位性があります。

4. 料金・プラン

ChatGPT サブスクリプション

プラン	GPT-5.5 利用可否
Free	✗ 利用不可
Go	✓ 利用可
Plus	✓ 利用可
Pro	✓ 利用可（フル機能）
Business / Enterprise	✓ 利用可

API 料金（近日公開予定）

モデル	入力（100万トークンあたり）	出力（100万トークンあたり）
GPT-5.5	$5	$30
GPT-5.5 Pro	$30	$180
（参考）GPT-5.4	$2.50	$15

API の提供開始は「近日中」

サイバー・生物リスクに対する追加安全対策の検討が必要なため、API 経由での利用は現時点（2026年4月24日）では未開始です。ChatGPT/Codex での利用は先行して開始されています。

価格は2倍でも実質コストは？

API 料金は GPT-5.4 の約2倍に設定されていますが、トークン効率が約40%向上しているため、同等のタスクをこなすための実コストは概算で約1.2倍程度に抑えられる可能性があります。高トークン消費が多い長文処理タスクでは、実質的にコスト削減になるケースもあると考えられます。

5. 利用方法・使い方

ChatGPT から使う（今すぐ利用可能）

ChatGPT Plus/Pro/Business/Enterprise ユーザーはモデル選択画面から GPT-5.5 を選択するだけで使えます。2026年4月23日から段階的ロールアウトが開始されており、対象プランのユーザーは順次利用可能になります。

Codex から使う

コーディング特化の Codex インターフェース経由でも GPT-5.5 が利用可能です。ただしコンテキストウィンドウは400K（API の1Mより制限）です。Codex には応答速度1.5倍・コスト2.5倍の Fastモード も搭載されています。

API から使う（近日公開）

API 経由の利用は現時点で未開始ですが「very soon（近日中）」とOpenAIが明言しています。開始され次第、通常の OpenAI API 経由でモデル名を指定してアクセスできます。

6. GPT-5.4・Claude Opus 4.7との違い

GPT-5.5 vs GPT-5.4

GPT-5.4

微調整モデルではなかったが、今回はゼロから完全再トレーニング
1Mトークンは名目上サポート。128K超で性能低下
エージェント能力はあるが、今回から本格化
API: $2.50 / $15（入出力）

GPT-5.5

完全再トレーニング。エージェント設計に最適化
1Mトークン全域で実用的な性能を初実現
コンピュータ操作・業務自動化を標準搭載
API: $5 / $30。ただしトークン効率40%向上

GPT-5.5 vs Claude Opus 4.7：使い分けの指針

タスク	おすすめ	理由
コマンドライン・OS操作の自動化	GPT-5.5	Terminal-Bench 2.0で82.7%（Claude 69.4%）
長大ドキュメントの処理（512K〜1M）	GPT-5.5	MRCR v2で74.0%（Claude 32.2%）
ホワイトカラー業務の自動化	GPT-5.5	GDPval 84.9%（44職種カバー）
法律業務・文書作成	GPT-5.5	BigLaw Bench 91.7%でリード
実世界ソフトウェアエンジニアリング	Claude Opus 4.7	SWE-Bench Proで64.3%（GPT-5.5は58.6%）
高度な推論・哲学的・学術的思考	Claude Opus 4.7	Humanity’s Last Examで46.9%（GPT-5.5は41.4%）

7. 主要ユースケース

① エンジニア・開発者向け

大規模なコードリファクタリング・複数ファイルにまたがる変更・長期マルチセッションの開発作業に強みがあります。Codex と組み合わせることで、ソフトウェア開発の大部分を自動化できます。ただしピンポイントのバグ修正や実世界の GitHub 課題解決は Claude Opus 4.7 の方が得意な面もあります。

② 業務自動化・ホワイトカラー業務

GDPval（44職種のホワイトカラー業務評価）で84.9%を記録。営業資料の作成・会計処理・スケジュール調整・メール対応など、幅広いオフィス業務を自動化できます。コンピュータ・ユース機能により、実際の PC 操作を伴う業務にも対応します。

③ 法律・金融などの専門業務

法律 AI の Harvey が実施した BigLaw Bench では91.7%を記録。「組織化・可読性・形式面で大幅向上」と評価されており、契約書のレビュー・訴訟書類の分析・リスク評価などの法律業務で実用レベルの性能を発揮します。BNY メロンの CIO も「高規制機関にとって重要な応答品質」と評価しています。

④ 科学・研究

FrontierMath Tier 4（高度数学）で35.4%を記録し、競合を大きく上回っています。組合せ論のラムゼー数に関する新しい数学的証明の生成支援や、生物医学研究の多段階データ分析など、最前線の科学研究を支援できるレベルに達しています。

⑤ 長大ドキュメントの処理

1Mトークン全域での実用的な処理能力を持つ初のモデルとして、大量のコードベース・法律文書・研究論文・会議録などを丸ごと処理する用途に最適です。

8. 制限事項・注意点

サイバーセキュリティ関連リクエストへの制限

OpenAI の Preparedness Framework で「High（高）」リスク分類を受けており、セキュリティ関連のリクエストには厳しいフィルタリングが適用されます。Trusted Access for Cyber プログラムを通じた制限的な対応のみとなっています。

API は未開始：2026年4月24日時点では API 経由の利用は不可。ChatGPT/Codex のみ
SWE-Bench Pro はClaude Opus 4.7に劣る：実世界のソフトウェアエンジニアリングでは競合に劣る面がある
Codexのコンテキストは400K：Codex 経由では API の1Mトークンに対して400Kに制限
冗長な応答になる場合あり：Harvey の評価より、単純なクエリでも過剰に詳細な応答が出ることがある
無料プランは利用不可：ChatGPT Free ユーザーは利用できない

まとめ

GPT-5.5（Spud）は2026年4月23日リリース。GPT-5.4の約6週間後に完全再トレーニングで登場
OpenAIが「新しいクラスのインテリジェンス」と呼ぶエージェントAI。質問に答えるだけでなく、自律的に仕事を遂行する
トークン効率40%向上・1Mトークン全域の実用化・コンピュータ操作標準搭載が主要な進化点
Terminal-Bench 2.0（82.7%）・GDPval（84.9%）・長文理解（74.0%）でトップ性能
一方、SWE-Bench Pro（実世界コーディング）ではClaude Opus 4.7に劣る。全面的な優位ではなく得意分野での突出
API料金はGPT-5.4の約2倍（$5/$30）だが、トークン効率向上で実質コストは抑制される見込み
ChatGPT Plus以上で今すぐ利用可能。API提供は近日中

AI モデルのリリースサイクルが約6週間にまで短縮されたことは、フロンティアAI の競争が急速に激化していることを示しています。GPT-5.5 は「エージェントとして働く AI」の実用化を大きく前進させるモデルです。特に業務自動化・長文処理・専門業務の分野では、実務への組み込みを検討する価値があります。

GPT-5.5（Spud）完全解説｜性能・料金・GPT-5.4との違いをベンチマークで比較【2026年4月最新】