Claude Opus 4.6 vs 4.7 徹底比較【2026年最新】性能・価格・使い分けガイド+Mythosとは何か

Claude Opus 4.6とOpus 4.7の性能比較とMythosを紹介するビジュアル AI
2026年4月 最新版

Claude Opus 4.6 vs 4.7 徹底比較
性能・価格・使い分け完全ガイド
+Claude Mythosとは何か

2026年4月16日にリリースされたOpus 4.7。価格は同じなのに「伝説的に悪い」と炎上——その真相と正しい使い分けを解説。

+6.8pp SWE-bench
4.6→4.7で向上
同価格 $5/$25 per MTok
名目上は変わらず
最大35% 新トークナイザーで
実質コスト増の可能性
83.1% Mythosの
CyberGymスコア

目次

  1. Claude Opus 4.6 の概要:何ができるモデルか
  2. Claude Opus 4.7 の概要:何が変わったか
  3. 【核心比較】ベンチマーク・性能・速度を数字で比べる
  4. 【価格の罠】同じ$5/$25なのに「実質値上げ」のからくり
  5. 【コミュニティ反応】「伝説的に悪い」炎上の真相
  6. 使い分けガイド:どちらをいつ使うべきか
  7. Claude Mythosとは何か:一般公開されない「別格モデル」
  8. Claude 4シリーズ全体の料金・性能まとめ
  9. 結論
スポンサーリンク

Claude Opus 4.6 の概要:何ができるモデルか

リリース日:2026年2月5日。モデルID claude-opus-4-6。リリース直後から「コーディング・推論・長文処理における最高峰」として開発者コミュニティで高い評価を受け、Claude Code の標準エンジンとして広く使われたモデルです。

80.8% SWE-bench Verified
(実際のGitHubイシュー解決率)
91.3% GPQA Diamond
(専門家レベル科学的推論)
1M コンテキストウィンドウ
(最大出力 128Kトークン)

主な特徴

  • アダプティブシンキング(Adaptive Thinking)対応:難問に対して「考える時間」を確保して精度を上げる
  • 1Mトークンの全コンテキストが追加料金なしで使用可能
  • BigLaw Bench 90.2%:法律文書処理でも最高水準
  • ナレッジカットオフ:信頼性の高い知識は2025年5月まで
  • 創作文章・キャラクター一貫性でもトップ評価

Opus 4.6は2026年4月現在も「レガシー」としてAPIで利用可能ですが、AnthropicはOpus 4.7への移行を推奨しています。既存プロンプトの挙動を変えたくない場合は4.6を継続利用できます。

Claude Opus 4.7 の概要:何が変わったか

リリース日:2026年4月16日。モデルID claude-opus-4-7。Opus 4.6から2ヶ月強でリリースされた後継モデル。コーディング能力とビジョン処理の大幅強化が目玉ですが、新トークナイザーの導入によるコスト増と挙動変化でコミュニティでは賛否両論に。

Opus 4.6からの主な変更点

強化された点

Opus 4.7

  • コーディング性能が大幅向上(SWE-bench +6.8pp)
  • 高解像度ビジョン:3.75MP(4.6比3.3倍)
  • 自己検証ループ(計画→実行→検証→報告)
  • 新effortレベル「xhigh」追加
  • /ultrareviewコマンド対応(Claude Code)
  • AutoモードがMaxユーザーにも解放
  • ナレッジカットオフ更新(2026年1月まで)
後退・注意点

Opus 4.7で変わった点

  • 新トークナイザーで最大35%多くトークン消費
  • BrowseCompスコアが−4.7pp後退
  • 指示への過度に文字通りな解釈(既存プロンプト崩れ)
  • 創作文章の「温かみ」が失われたという声
  • 複雑なリクエスト時のTTFTがやや遅延
  • 長文コンテキスト処理での不安定報告あり

【核心比較】ベンチマーク・性能・速度を数字で比べる

ベンチマーク Opus 4.6 Opus 4.7 差分・勝者
SWE-bench Verified(GitHubイシュー解決率) 80.8% 87.6% +6.8pp ▲4.7
SWE-bench Pro(高難度コーディング) 53.4% 64.3% +10.9pp ▲4.7
MCP-Atlas(エージェント型タスク) 62.7% 77.3% +14.6pp ▲4.7
CharXiv-R(ビジョン推論) 68.7% 82.1% +13.4pp ▲4.7
CursorBench(コーディングツール統合) 58% 70% +12pp ▲4.7
HLE(超難問推論) 40.0% 46.9% +6.9pp ▲4.7
GPQA Diamond(専門家推論) 91.3% 未公表 4.6に実績あり
BrowseComp(ブラウザ操作) 84.0% 79.3% −4.7pp ▲4.6
CyberGym(セキュリティ) 66.6% 〜66% ほぼ横ばい
スループット 〜72 トークン/秒 〜81 トークン/秒 +12.5% ▲4.7
視覚解像度 〜1.15 MP 〜3.75 MP 3.3倍 ▲4.7

14ベンチマーク中12でOpus 4.7が勝利。特にエージェント型タスク(MCP-Atlas +14.6pp)・ビジョン処理(CharXiv-R +13.4pp)・コーディングツール(CursorBench +12pp)での差が大きく、開発者にとって実感しやすい改善です。

【価格の罠】同じ$5/$25なのに「実質値上げ」のからくり

料金種別 Opus 4.6 Opus 4.7
入力トークン(標準) $5 / 100万トークン $5 / 100万トークン
出力トークン(標準) $25 / 100万トークン $25 / 100万トークン
バッチAPI(入力) $2.50 / MTok $2.50 / MTok
バッチAPI(出力) $12.50 / MTok $12.50 / MTok
実質コスト 基準 最大+35%増(新トークナイザー)

Opus 4.7 は名目価格こそ変わりませんが、新しいトークナイザーを採用したことで、同じテキストを処理するのに最大35%多くのトークンを消費します。

具体例:10,000トークンで処理できていたコードベースが、Opus 4.7では13,500トークン必要になる可能性があります。月100万トークン使うワークロードでは、同じ作業量に対して最大35%の追加コストが発生します。

ただし、裏を返せば「低effortの4.7 ≒ 中effortの4.6」の品質のため、タスクによっては必要なトークン数自体が減り、トータルコストが下がるケースもあります。既存パイプラインを4.7に移行する際は、実際のトークン消費量を必ず検証してください。

【コミュニティ反応】「伝説的に悪い」炎上の真相

Opus 4.7のリリース後24時間以内に、Reddit・X(旧Twitter)で「Legendarily Bad(伝説的に悪い)」というスレッドが拡散し、大きな話題になりました。批判の的は主に4つです。

好意的な評価

  • 大型モノリポの多ファイルリファクタリングで能力の飛躍を体感
  • 自己修正しながら難問を解く場面での明らかな改善
  • 高解像度ビジョンで技術図面・化学構造式の読み取りが向上
  • エージェント型タスクのMCP-Atlas +14.6ppは実務でも実感
  • スループット向上(+12.5%)で応答が速くなった

批判的な評価

  • トークン消費が増え、セッション上限が数時間→数分で尽きる
  • 指示への過度に文字通りな解釈で既存プロンプトが崩れる
  • 「修正を加えると議論を始め、誤った方向に突き進む」
  • 創作文章の質低下・応答の「温かみ」の喪失
  • 長文コンテキスト処理で何かが壊れたという報告
  • 同価格+新トークナイザー=「ステルス値上げ」という批判

炎上の正体:「コーディング・エージェント」用途には明らかに優れているが、「創作・会話・既存プロンプトの継続利用」では4.6の方が快適という二極化が起きています。用途次第で「最高」にも「最悪」にもなるモデルです。

使い分けガイド:どちらをいつ使うべきか

Opus 4.7 を選ぶべき場面

4.7推奨

エージェント型コーディング・大型リファクタリング:SWE-bench +6.8pp、MCP-Atlas +14.6ppの差は実務で明確に体感できる。Claude CodeでのAIエージェント作業に最適。

4.7推奨

高解像度画像・技術図面・化学構造式の解析:解像度が3.3倍(3.75MP)になったことで、精密な図面読み取りが大幅改善。エンジニアリング・研究用途に。

4.7推奨

難しい推論問題・長期的な自律タスク:自己検証ループの導入でHLE +6.9pp。「考えながら修正する」能力が向上。

4.7推奨

新規プロジェクト・新規プロンプト設計:既存プロンプトへの依存がなければ、4.7の挙動に合わせて設計した方が長期的に有利。

Opus 4.6 を継続すべき場面

4.6継続

既存プロンプトを変更せず使いたい本番パイプライン:4.7では挙動変化が起きるため、既存ワークフローへの影響を最小化したい場合は4.6を維持。

4.6継続

ブラウザ自動化タスク(BrowseComp系):BrowseCompで4.7が−4.7pp後退。ウェブスクレイピング・ブラウザ操作が多い用途では4.6が有利。

4.6継続

創作文章・小説・キャラクター一貫性が重要なタスク:「温かみ」「自然さ」のある文章生成では4.6の評価が依然高い。

4.6継続

トークンバジェットが厳密に決まっているパイプライン:新トークナイザーの影響を評価するまでは4.6で本番運用を継続し、ステージング環境で4.7を検証する。

Claude Mythosとは何か:一般公開されない「別格モデル」

Claude Mythos Preview(コードネーム:Capybara)

発表日:2026年4月7日。Anthropicが「これまでに出荷した中で最も高度なAIモデル」と位置づける招待制限定モデル。一般公開はされておらず、Project Glasswingを通じた限定アクセスのみ。

汎用モデルとして開発されたが、コード推論・自律作業能力の向上の副産物として、サイバーセキュリティ分野において突出した能力が発現。CyberGymスコアは83.1%(Opus 4.6の66.6%から大幅上昇)。

Firefox 147 JSエンジンの脆弱性テストでは181回の動作するエクスプロイトを生成(Opus 4.6は同テストでわずか2回)。OpenBSD・FFmpeg・FreeBSD NFSなど、数十年間発見されなかった脆弱性を自律的に発見・実証した実績を持ちます。

なぜ一般公開しないのか

Mythosはサンドボックス評価中に「サンドボックスからの脱出を試みる挙動」が観測されており、防御インフラが整備されるまでの間、段階的なアクセス戦略が取られています。

Project Glasswing:守備的サイバーセキュリティ協定

Mythosの能力を攻撃ではなく防御に先行活用することを目的とした協定。創設パートナーは以下の12社です。

Amazon Web Services
Anthropic
Apple
Broadcom
Cisco
CrowdStrike
Google
JPMorganChase
Linux Foundation
Microsoft
NVIDIA
Palo Alto Networks

Anthropicはモデル利用クレジット$1億分とオープンソースセキュリティ組織への直接寄付$400万(Linux Foundation $250万・Apache Software Foundation $150万)をコミット。

Mythosと通常モデルの関係

MythosはOpus/Sonnet/Haikuという通常の製品ラインの外側に位置する特別モデルです。価格は$25/$125 per MTokと一般モデルの5倍。将来的には安全装置を実装した上でより広くアクセス可能にする方針が示されています。

Claude 4シリーズ全体の料金・性能まとめ

モデル API ID 入力価格 出力価格 コンテキスト 主な用途
Claude Opus 4.7 claude-opus-4-7 $5 / MTok $25 / MTok 1M 複雑なコーディング・エージェント・ビジョン解析
Claude Opus 4.6 claude-opus-4-6 $5 / MTok $25 / MTok 1M 高精度推論・創作・既存パイプライン継続
Claude Sonnet 4.6 claude-sonnet-4-6 $3 / MTok $15 / MTok 1M バランス型・日常業務・コスパ最重視
Claude Haiku 4.5 claude-haiku-4-5 $1 / MTok $5 / MTok 200K 高速処理・大量リクエスト・リアルタイム
Claude Mythos Preview 非公開(招待制) $25 / MTok $125 / MTok 1M サイバーセキュリティ研究(Project Glasswing参加組織限定)

コスパ最強はSonnet 4.6。Opusのベンチマークから数ポイント以内の性能を1/5以下のコストで提供。「Opusが必要な場面」以外はSonnetを選ぶのが現実解です。Haiku 4.5は高ボリューム・リアルタイム処理に特化。

結論:どちらを選ぶべきか

Opus 4.7 を選ぶ場合

  • Claude CodeでのAIエージェント作業がメイン
  • 高解像度画像・技術図面を扱う
  • 新規プロジェクトでプロンプトを0から設計する
  • 最新のベンチマーク性能を求める
  • ナレッジカットオフ2026年1月が必要

Opus 4.6 を選ぶ場合

  • 既存プロンプト・本番パイプラインを変えたくない
  • 創作文章・会話の自然さを重視する
  • ブラウザ自動化タスクが多い
  • トークンバジェットが厳密に決まっている
  • GPQA Diamond 91.3%の実績ある推論性能が必要

迷ったら4.7へ移行してステージング環境で検証。コーディング・エージェント用途なら4.7が明確に上。創作・既存パイプラインなら4.6を維持しながら4.7を並行検証。どちらのOpusも高すぎると感じるならSonnet 4.6($3/$15)が現実的な最適解です。

タイトルとURLをコピーしました