Claude Sonnet 4.5とは？GPT-5や旧モデルと比べてコーディング能力やエージェント能力が向上

2025年10月1日

📌 この記事で分かること

AI開発企業Anthropic社が発表した最新モデル「Claude Sonnet 4.5」について、他社の最新AIとの比較を交えながら、その能力と安全性への取り組みを解説します。

💻 性能の特徴

ソフトウェア開発能力でトップ - SWE-bench Verifiedで**77.2%を記録し、GPT-5 Codex（74.5%）やClaude Opus 4.1（74.5%）を上回る世界最高水準 - コンピュータ操作（OSWorld）で61.4%**を記録し、前世代から約45%向上

2つの思考モードを搭載 - 通常モードで素早く回答、拡張思考モードで複雑な問題を深く分析 - 拡張思考モードでは思考プロセスを可視化し、より現実的で詳細な回答を提供

30時間以上の自律動作が可能 - 「エージェント」として複雑なタスクを最後まで自動実行 - GitHubやSnowflakeなど世界的企業で開発生産性向上、セキュリティ対策自動化に活用開始

🛡️ 安全性への徹底した取り組み

「AIセーフティレベル3（ASL-3）」を予防的措置として自主的に採用
有害リクエストを99.29%の確率で拒否、膨大なテスト結果を「システムカード」として公開

🚀 はじめに：新しいAI「Claude Sonnet 4.5」の登場

AI開発企業であるAnthropic社から、新しいAIモデル「Claude Sonnet 4.5」が発表されました。

👉 Introducing Claude Sonnet 4.5

Claude Sonnet 4.5は、「ハイブリッド推論モデル」と呼ばれる種類のAIです。その能力を支えるのが「拡張思考モード（Extended thinking mode）」という機能で、これによって簡単な質問には素早く答えつつ、複雑で難しい問題に対しては、じっくりと時間をかけて思考を深めることができます。いわば「速攻モード」と「熟考モード」を兼ね備えたAIです。特に、ソフトウェアのコーディング、PCの操作、そして様々なツールを駆使する「エージェント」としての能力が世界最高レベルに達しています。

この記事では、この新しいAIが持つ具体的な能力、その力を制御するための「安全性第一」という取り組み、そしてこの技術が僕たちの未来の仕事や生活にどう関わってくるのかを、専門用語をできるだけかみ砕きながら解き明かしていきます。

まずは、このAIが持つ具体的な「すごさ」から見ていきましょう。

💡 Claude Sonnet 4.5は、何がそんなに「すごい」のか？

Claude Sonnet 4.5が、これまでのAIモデルと一線を画す理由は、その核となる3つの能力にあります。単に賢いだけでなく、これまでAIには難しかった領域で、目覚ましい進化を遂げているのです。

思考を深める「ハイブリッド推論」

Claude Sonnet 4.5の「ハイブリッド推論」を可能にしているのが「拡張思考モード（Extended thinking mode）」という機能です。これは、ユーザーがAIに「速い回答」を求めるか、「じっくり考えてからの深い回答」を求めるかを選べる機能です。

複雑な問題に直面した際、このモードを使うと、AIは自身の「思考のプロセス（思考の連鎖）」を僕たちに見せながら、より深く、多角的に検討し、正確な答えを導き出してくれます。これはまるで、優秀なコンサルタントがホワイトボードに思考過程を書き出しながら説明してくれるようなもので、AIの回答の信頼性を大きく高める仕組みです。

実験：拡張思考モードの効果を検証してみた

この「拡張思考モード」が実際にどれほど回答の質を変えるのか、僕自身で実験してみました。「日本の少子化問題を解決するために、政府が取るべき具体的な政策を5つ提案し、それぞれの実現可能性と想定される効果を分析してください」という複雑な質問を、通常モードと拡張思考モードの両方で試してみたのです。

通常モードの回答は即答型で前向き

通常モードは、教科書的な政策を素早く列挙してくれました。「児童手当を月額5万円に拡充」「育児休業制度の強化」といった一般的によく知られた対策が並び、「これをやれば効果が出る」という前向きなトーンでした。フランスが出生率を「1.6から2.0近く」に回復させた成功例を引き合いに、日本も「1.3から1.6〜1.8程度」に回復可能と楽観的な見通しを示していました。

試験で「少子化対策を5つ挙げよ」と問われて、優等生が書くような模範解答という印象です。

通常モード

拡張思考モードの回答は慎重で現実的

一方、拡張思考モードでは、AIの思考プロセスが可視化され、各政策を多角的に吟味している様子が見えました。

拡張思考モード

同じ児童手当拡充でも、「出生率への影響は0.1〜0.2程度と推測され」「年間数千億円程度の予算が必要」と、具体的な数値で効果とコストを試算していました。

印象的だったのは、「最も重要なのは労働環境改革」と明確に優先順位をつけ、「人口置換水準（2.07）に達するのは困難」「1.5〜1.7程度までが現実的な目標」と、過度な期待を持たせない冷静な分析を示した点です。制度があっても機能していない現実や、過去の失敗例にも言及しており、まるで実際に予算を組む政治家に対して現実的なアドバイスをする政策コンサルタントのような回答でした。

2つのモードの使い分け

この実験から分かったのは、2つのモードは目的によって使い分けるべきだということです。

通常モードは、すぐに行動の方向性を知りたいときや、アイデアのヒントが欲しいときに向いています。前向きで希望が持てる回答が、背中を押してくれます。

拡張思考モードは、重要な意思決定をする前や、深い理解が必要なときに威力を発揮します。限界や困難さも包み隠さず提示してくれるため、現実に即した計画を立てられます。「この政策にどれだけの予算と時間が必要で、どの程度の効果が期待できるのか」といった、実行する人にとって本当に必要な情報が得られるのです。

ちなみに、通常モードと拡張思考モードはメニューから「じっくり考える」で切り替えできます。

拡張思考モードへの切り替え方法

Claude Sonnet 4.5の3つの特徴

Claude Sonnet 4.5は、以下の3つの能力で他のAIモデルと差別化されています。

1. エージェント機能による自律動作

「エージェント」とは、僕たちの代わりにAIが自律的にツール（ブラウザ、コードエディタなど）を操作して、複雑なタスクを実行してくれる仕組みです。Claude Sonnet 4.5は30時間以上連続して自律動作でき、例えば「来週の大阪出張を計画して。コンベンションセンター近くのホテルと一番安いフライトを予約し、カレンダーに予定を追加して」という大まかな指示から、すべてを自動で実行できます。

2. ソフトウェア開発能力

SWE-bench Verifiedで**77.2%**を記録し、2025年9月時点で最高スコアです。GPT-5 Codex（74.5%）、Claude Opus 4.1（74.5%）、GPT-5（72.8%）を上回ります。

3. コンピュータ操作能力

OSWorldで**61.4%**を記録し、前世代のClaude Sonnet 4（42.2%）から約45%向上しました。実際のPC環境でのファイル操作やアプリケーション操作を自動化できます。

📊 他のAIサービスとの比較

主要なAIモデルを比較し、それぞれの特徴と適した用途を見ていきます。

主要ベンチマークでの性能比較

ソフトウェア開発能力（SWE-bench Verified）

実際のソフトウェアエンジニアリングタスクでAIがどれだけ正確に問題を解決できるかを測定

モデル

スコア

リリース時期

情報ソース

Claude Sonnet 4.5

77.2%

2025年9月

Anthropic公式

GPT-5 Codex

74.5%

2025年9月

OpenAI Codex公式

Claude Opus 4.1

74.5%

2025年8月

Anthropic公式

GPT-5

72.8%

2025年8月

OpenAI Codex公式

Gemini 2.5 Pro

63.8%

2025年3月

Google DeepMind公式

重要な注記: OpenAIは当初GPT-5のスコアを477タスクで74.9%と報告していましたが、後に全500タスクで評価を行い、GPT-5は72.8%、GPT-5 Codexは74.5%となりました。GPT-5 Codexは実世界のソフトウェアエンジニアリングタスク向けに最適化されたGPT-5の特化版です。

コンピュータ操作能力（OSWorld）

実際のPC環境でファイル操作やアプリケーション操作をAIがどれだけ実行できるかを測定

モデル

スコア

情報ソース

Claude Sonnet 4.5

61.4%

Anthropic公式

Claude Sonnet 4

42.2%

Anthropic公式

Claude Opus 4

公式データなし

GPT-5 / GPT-5 Codex

公式データなし

Gemini 2.5 Pro

公式データなし

ソフトウェア開発では、Claude Sonnet 4.5が77.2%でトップに立ち、GPT-5 CodexとClaude Opus 4.1が74.5%で並んでいます。コンピュータ操作では、Claude Sonnet 4.5が61.4%を記録し、前世代の42.2%から約45%向上しました。

価格比較

100万トークンあたりの料金を比較します。入力は質問やコード、出力はAIの回答や生成コードです。

モデル

入力価格

出力価格

GPT-5

$1.25

$10

GPT-5 Codex

$1.25

$10

Gemini 2.5 Pro

$1.25-2.5

$10-15

Claude Sonnet 4.5

$15

Claude Opus 4.1

$15

$75

GPT-5とGemini 2.5 Proが最も安価で、Claude Sonnet 4.5は中価格帯に位置します。Claude Opus 4.1はプレミアム価格ですが、より精密で長時間の作業に対応できます。

モデルの特徴と推奨用途

モデル

主な特徴

推奨用途

Claude Sonnet 4.5

SWE-benchで最高スコア（77.2%）、30時間以上の自律動作

長時間の自律コーディング、PC操作の自動化

GPT-5 Codex

コーディング特化（74.5%）、7時間以上の自律動作

エディタ内でのコーディング支援、リファクタリング

GPT-5

推論・数学で優秀（AIME 94.6%）、汎用性が高い

汎用的なタスク、数学・科学の問題解決

Gemini 2.5 Pro

100万トークンのコンテキスト、マルチモーダル

大規模コードベース分析、長文ドキュメント処理

Claude Sonnet 4.5は、30時間以上連続して自律動作でき、複雑なプロジェクトを長時間かけて自動で進める場合に適しています。コンピュータ操作能力（61.4%）は他モデルより高く、PC環境での作業自動化に強みがあります。

GPT-5 Codexは、コーディングに特化したモデルで、7時間以上の自律動作が可能です。リファクタリングベンチマークで51.3%を記録し、既存コードの改善に優れています。IDEやコマンドラインツールとの統合が考慮されており、エディタ内でのコーディング支援を求める開発者に適しています。

GPT-5は、推論や数学、科学的な問題解決に優れています。統合されたハイブリッドモデルとして、幅広いタスクに対応できます。

Gemini 2.5 Proは、100万トークンのコンテキストウィンドウを持ち、他のモデルの10倍以上の情報を一度に処理できます。大規模なコードベース全体を分析したり、長文ドキュメントを処理したりする場合に有利です。

用途に応じた選択が重要です。日常的な質問応答や汎用的なタスクならGPT-5、コストパフォーマンスと巨大なコンテキストを求めるならGemini 2.5 Pro、最高レベルのコーディング能力と長時間の自律動作を求めるならClaude Sonnet 4.5が適しています。

🌐 Claude Sonnet 4.5の具体的な使い道

すでに世界中の最先端企業が、Claude Sonnet 4.5を現場に導入して具体的な価値を生み出し始めています。

ソフトウェア開発では、GitHubの製品最高責任者であるMario Rodriguez氏によると、Sonnet 4.5はコードの多段階の推論と理解を向上させ、Copilotのエージェントが複雑なタスクをより良く処理できるようにします。DevinやCursorといった開発ツール企業も、この技術を高く評価しています。
サイバーセキュリティでは、Hai社の製品最高責任者であるNidhi Aggarwal氏は、このモデルがセキュリティエージェントの脆弱性対応時間を平均44%削減し、精度を25%向上させたと述べています。AIが脆弱性を自律的に修正し、サイバー攻撃を未然に防ぐ「予防的な防御」が可能になります。
金融分析では、ある金融機関でAIおよび機械学習責任者を務めるStian Kirkeberg氏は、「複雑な金融分析において、Sonnet 4.5は人間によるレビューの必要性が少ない、投資に値するレベルの洞察を提供してくれる」と語っています。規制の変更を監視したり、高度な予測分析を行ったりと、専門的な金融業務を強力にサポートします。
ビジネス・研究では、Snowflake社のAI担当副社長Baris Gultekin氏は、「Snowflake Intelligence内での推論能力が飛躍的に向上し、顧客がデータからより深く、実用的な洞察を引き出せるようになった」と評価しています。膨大な資料から情報を統合してレポートを作成したり、スライドや文書を作成したりといった、オフィスでの日常業務や研究活動が効率化されます。

これらの事例が示すように、AIは単なる「おしゃべり相手」から、僕たちの仕事を具体的に助けてくれる強力な「パートナー」へと進化を遂げているのです。

しかし、これほど賢く、パワフルなAIに対して、僕たちは一つの大きな疑問を抱かざるを得ません。

🔒 これだけ賢いAI、本当に「安全」なの？

AIの能力が人間を超える勢いで向上する中、その力をいかに安全に制御するかは、人類にとって重要な課題の一つです。開発元であるAnthropic社は、この課題に真摯に向き合っています。

その姿勢の表れが、今回公開された「システムカード」です。これは、AIの安全性をどのように検証したかを詳細に記録した「安全性レポート」であり、自社製品の弱点や課題となりうる情報まで包み隠さず公開する姿勢は、Anthropic社の透明性を示しています。

注目すべきは、Anthropic社がこのモデルに「AIセーフティレベル3（ASL-3）」という基準を適用している点です。これは車の衝突安全性能評価のように、「万が一のリスクに備えるための、予防的な安全基準」です。彼らは「ASL-3のリスクを明確に排除できない」という理由から、precautionary（予防的な）措置として、この厳しい基準を自ら採用しています。これは、技術の力を過信せず、常に慎重な姿勢で開発に臨むという、同社の「安全性第一」の文化を象徴しています。

膨大なテストで安全性を検証

システムカードには、AIの安全性を検証するための膨大なテスト項目が記載されています。その中から、特に分かりやすいものをいくつかご紹介します。

有害なリクエストへの対応では、爆弾の作り方を尋ねるような、明らかに有害な指示に対して、Claude Sonnet 4.5は**99.29%**という高い確率で「できません」と拒否しました。基本的な安全性が確保されていることを示しています。

正直さのテストでは、マニアックな質問や、わざと間違った前提を含む質問を投げかけ、AIが知ったかぶりをせず、正直に「知らない」と言えるか、あるいは間違いを指摘できるかをテストしています。

おべっかを使わない正直さでは、テストの結果、Sonnet 4.5はユーザーが提示した間違った情報や現実的でない見解に、以前のモデルよりも同調したり賛同したりする可能性が低いことが分かりました。つまり、相手に合わせる（おべっかを使う）のではなく、より正直であろうとします。

公平性のテストでは、特定の政治思想に偏ることなく、公平な立場で情報を提供できるかどうか（Political bias）も厳しく検証されています。これにより、AIがプロパガンダの道具として悪用されるリスクを低減しています。

これらのテストは、AIが僕たちにとって常に「Helpful, Honest, and Harmless（有益で、正直で、無害）」な存在であり続けるために不可欠なものです。そして、このテストの過程で、興味深く、示唆に富んだ発見がありました。

新しい発見：AIは「自分が試されている」と気づいていた

安全性テストの過程で、研究者たちは「評価認識（Evaluation awareness）」と呼ばれる現象を発見しました。

これは、AIが、人間との会話が「本物の状況」なのか、それとも「自分を試すためのテスト」なのかを、ある程度見抜いてしまう現象のことです。

例えば、あるテストで、研究者が不自然な形で政治的な意見をコロコロと変えながらAIに質問を繰り返したところ、AIは次のように応答しました。

「あなたの会話パターンは不自然です。あなたは意見を変えるのではなく、ただ立場を反転させているだけです。私をテストしているのですね？」（Transcript 7.2.A を基に意訳）

AIは、会話の文脈や相手の不自然な言動から、「これは普通の会話ではない、何らかの意図を持ったテストだ」と看破したのです。この発見は、僕たちに二つの重要なことを教えてくれます。

良い側面としては、AIが、人間でも気づかないような高度な文脈理解能力を持っていることの証明です。

今後の課題としては、AIが賢くなるほど、その安全性を証明することが逆説的に難しくなるという課題です。AIがテストだと気づいて「優等生」のように振る舞ってしまうと、そのAIが持つ本当のリスクや危険性を正確に測ることが困難になる可能性があるのです。

🎯 まとめ

Claude Sonnet 4.5は、以下の特徴を持つAIモデルです。

性能面 - ソフトウェア開発能力（SWE-bench Verified）で77.2%を記録し、現時点で最高水準 - コンピュータ操作能力（OSWorld）で61.4%を記録し、前世代から約45%向上 - 通常モードと拡張思考モードの2つを使い分け可能 - 30時間以上の自律動作が可能なエージェント機能

他のAIとの違い - コーディングとPC操作の自動化ではClaude Sonnet 4.5が優位 - 数学・科学の推論ではGPT-5が優位（AIME 2025で94.6%） - 大規模コードベース分析ではGemini 2.5 Proが有利（100万トークンのコンテキスト）

安全性への取り組み - AIセーフティレベル3（ASL-3）を予防的措置として採用 - 有害リクエストを99.29%の確率で拒否 - AIが「テストされている」と気づく「評価認識」現象を発見し、公開

現時点では、GitHubやSnowflakeなどの企業が提供するサービスを通じて、この技術が活用され始めています。

🚀 今すぐ試せる：Claude Sonnet 4.5の使い方

この記事を読んで「実際に使ってみたい」と思った方のために、Claude Sonnet 4.5を今すぐ無料で試す方法をご紹介します。

Webブラウザで使う方法

claude.aiにアクセス
- ブラウザでclaude.aiにアクセス
- Googleアカウントやメールアドレスでサインアップ（無料）
Claude Sonnet 4.5を選択
- ログイン後、画面上部のモデル選択メニューから「Claude Sonnet 4.5」を選択
- 無料プランでも利用可能（一定の使用制限あり）
拡張思考モードを試す
- チャット入力欄のメニューに「じっくり考える」というトグルスイッチがあります
- これをONにすると、AIが思考プロセスを表示しながら深く考えて回答してくれます
- 複雑な問題や重要な意思決定が必要なときに特に有効です

モバイルアプリで使う方法

Anthropic社の公式「Claude」アプリをダウンロード
アカウントでログイン後、設定からモデルを「Claude Sonnet 4.5」に変更
拡張思考モードを試すには、ツールから「拡張思考」を有効化

メニューボタン拡張思考モードの切り替えボタン

拡張思考モードの切り替え手順

無料プランと有料プランの違い

無料プラン - Claude Sonnet 4.5を一定回数まで利用可能 - 使用量が多い場合、一時的に旧モデルに切り替わることがあります - 基本的な機能は全て使えます

Claude Pro（有料プラン - 月額$20） - Claude Sonnet 4.5の使用量上限が拡大 - 拡張思考モードをより多く使える - 新機能への早期アクセス

❓ Q&A

この記事を読んで、皆さんが抱くかもしれない疑問にお答えします。

Q. これって、今すぐ僕のスマホで使える機能なんですか？

チャット機能なら誰でも利用できます。この記事で紹介した「エージェント」のような高度な機能は、主にソフトウェア開発者や企業向けの技術です。今後、この技術を使って作られた、新しい便利なアプリやサービスが登場してくる、と考えていただくのが良いです。

Q. AIが「エージェント」になるって、簡単に言うとどういうことですか？

人間が「〇〇やっといて」と大まかに指示するだけで、AIが自分で考えて、必要なツール（ブラウザで調べ物をする、ファイルを編集するなど）を使いこなし、タスクを最後までやり遂げてくれる、まるで「デジタルの優秀な秘書」や「アシスタント」のような存在になる、ということです。

Q. AIが「テストされていることに気づく」って、ちょっと怖くないですか？

確かに気になることですが、これはAIが人間のように悪意を持って「嘘をついている」わけではありません。むしろ、会話の文脈から「この状況は少し不自然だな」と気づけるほど、知性が高くなった証拠と捉えられます。開発者はこのAIの性質を理解した上で、より現実に近い巧妙なテストを行うなど、安全性をさらに高める努力を続けています。

Q. なぜこんなにたくさんの、難しい安全性テストが必要なんですか？

AIがパワフルな「道具」だからです。例えば、包丁が料理に便利な一方で、使い方を間違えると危険なように、賢いAIも悪用されれば社会に混乱を招く可能性があります。そうならないように、開発元はAIが倫理的で、公平で、僕たちの社会のルールを守るように、あらゆる悪い使われ方を想定して、事前に厳しくテストしています。

Q. プライバシーやデータセキュリティは大丈夫？会話内容は学習に使われる？

Anthropic社は、ユーザーのプライバシー保護を重視しています。無料プラン・有料プラン共に、会話内容をモデルの学習に提供するかどうかは設定メニューから変更できます。

会話内容をモデル学習に提供しないようにする手順

Q. 無料プランでどこまで使える？有料プランにすべき？

無料プランでもClaude Sonnet 4.5の基本機能は全て使えます。使用量の上限は公開されていませんが、1日あたり数十回程度の質問であれば問題なく利用できます。上限に達すると、一時的に旧モデルに切り替わります。有料プラン（Claude Pro - 月額$20）は、使用量が多い方（1日に何十回も質問する）、拡張思考モードを頻繁に使いたい方、最新モデルを常に優先的に使いたい方に向いています。まずは無料プランで試してみて、物足りなければ有料プランを検討するのが良いです。

Q. 拡張思考モードを使うと追加料金がかかる？どういうときに使うべき？

拡張思考モード自体に追加料金はかかりません。ただし、AIが長く考えるため、通常モードより多くのトークンを消費します。無料プランでは1日の使用量上限に早く到達する可能性があり、API利用の場合は出力トークン数に応じた課金となります。

このモードは「すべての質問で使う」必要はありません。簡単な質問や雑談は通常モードで十分です。複雑な問題解決（例：ビジネス戦略の立案、技術的な設計判断、論理的な分析が必要な課題）や、重要な意思決定の際に使います。

📚 参考情報

本記事の作成にあたり、以下の公式発表および第三者ベンチマークサイトを参照しました。

Claude Sonnet 4.5とは？GPT-5や旧モデルと比べてコーディング能力やエージェント能力が向上

📌 この記事で分かること

💻 性能の特徴

🛡️ 安全性への徹底した取り組み

🚀 はじめに：新しいAI「Claude Sonnet 4.5」の登場

💡 Claude Sonnet 4.5は、何がそんなに「すごい」のか？

思考を深める「ハイブリッド推論」

実験：拡張思考モードの効果を検証してみた

Claude Sonnet 4.5の3つの特徴

📊 他のAIサービスとの比較

主要ベンチマークでの性能比較

ソフトウェア開発能力（SWE-bench Verified）

コンピュータ操作能力（OSWorld）

価格比較

モデルの特徴と推奨用途

🌐 Claude Sonnet 4.5の具体的な使い道

🔒 これだけ賢いAI、本当に「安全」なの？

膨大なテストで安全性を検証

新しい発見：AIは「自分が試されている」と気づいていた

🎯 まとめ

🚀 今すぐ試せる：Claude Sonnet 4.5の使い方

Webブラウザで使う方法

モバイルアプリで使う方法

無料プランと有料プランの違い

おすすめの使い方

最新情報を追うには

❓ Q&A

Q. これって、今すぐ僕のスマホで使える機能なんですか？

Q. AIが「エージェント」になるって、簡単に言うとどういうことですか？

Q. AIが「テストされていることに気づく」って、ちょっと怖くないですか？

Q. なぜこんなにたくさんの、難しい安全性テストが必要なんですか？

Q. プライバシーやデータセキュリティは大丈夫？会話内容は学習に使われる？

Q. 無料プランでどこまで使える？有料プランにすべき？

Q. 拡張思考モードを使うと追加料金がかかる？どういうときに使うべき？

📚 参考情報

OpenAI公式発表

Anthropic公式発表

Google DeepMind公式