Claudeが「賢くなくなる」理由: 「節約」の隠れた代償はAPI料金の100倍跳ね上がり
Claudeが「賢くなくなる」理由: 「節約」の隠れた代償はAPI料金の100倍跳ね上がり
数日前、AMDのAIディレクター、ステラ・ロレンツォ氏は、Claudeの公式コードリポジトリで、非常に技術的な問題を指摘しました。「2月のアップデート以来、Claude Codeは複雑なエンジニアリングタスクには使えない」。これは単なる感情論ではありませんでした。実際のワークフローで収集された6,852セッション、17,871の思考ブロック、234,760のツール呼び出しに基づいた、定量的な事後分析でした。元のレポートはこちらから読めます: GitHub Issue #42796。
もしあなたが暗号資産(クリプト)分野で開発を行っているなら、これは気にかけるべき問題です。なぜなら、Web3では「複雑なエンジニアリング」がデフォルト設定だからです。スマートコントラクトは変更不能であり、攻撃対象は composable(合成可能)であり、わずかな幻覚(hallucination)による変更が不正利用につながる可能性があります。AI製品の一時的な不具合に見えるものが、実際にはソフトウェアサプライチェーンのリスクであり、コストの罠でもあるのです。
1) 示唆に富むデータ:品質低下、コスト急増(大幅に)
このレポートは、**拡張思考(extended thinking)と思考の検閲(thinking redaction)**に関するサーバーサイドの設定変更(特に redact-thinking-2026-02-12 というラベルのロールアウト)と、目に見える品質低下との関連性を示しています。重要な主張は、「出力が悪くなった」ということだけでなく、モデルの挙動が研究優先から編集優先へと測定可能に変化したということであり、これは高等リスクなエンジニアリングにおいてはまさに逆方向なのです。
以下は、Issueスレッドのメトリクスに基づいた簡易的なスナップショットです:
出典:GitHub Issue の元のテレメトリとコスト付録。
暗号資産分野で最も関連性の高い教訓は、直感に反します:推論を制限しても、必ずしも支出が減るとは限らないということです。長期間にわたるタスクでは、弱いエージェントはより多くリトライ、修正、ツール呼び出しをトリガーする可能性があり、信頼性を低下させながらも、請求額を100倍以上に押し上げる可能性があります。
2) なぜこれが一般的なソフトウェアチームよりもブロックチェーンチームに影響が大きいのか
スマートコントラクトは「ほぼ正しい」を許容しない
Web2では、リグレッションはパッチを当てて再デプロイできます。Web3では、悪い仮定は永遠に残る可能性があります。
Ethereum自身のドキュメントも率直です:デプロイされたコードは変更が難しく、損失はしばしば回復不能です。 Ethereumスマートコントラクトセキュリティドキュメント や、より広範な セキュリティガイドライン を参照してください。
これをClaude Codeのテレメトリと結びつけてみましょう:ファイル読み取りが少なく、編集への意欲が高く、早期停止が増加しています。これはまさに、以下のような事態を引き起こすパターンです:
- 不完全なチェック(認証、リプレイ保護、ドメイン分離)
- モジュール間の不整合のある不変条件
- トークン decimals、fee-on-transfer、丸め処理に関するエッジケース処理の欠落
- 安全でない外部呼び出しや、不適切な状態更新
DeFiやオンチェーンインフラストラクチャでは、「ほぼ正しい」はしばしば不正利用可能であることと同じです。
2025〜2026年の複雑化トレンドが影響範囲を拡大する
2つの業界のシフトが、「AIエージェントのリグレッション」の話を、見た目以上に暗号資産分野で危険なものにしています:
-
アカウント抽象化(Account Abstraction)とスマートアカウントが主流化し、セキュリティクリティカルなロジックがEOA(Externally Owned Account)ではなくコントラクト内に存在する量が増加しています。もしあなたの製品がAAに触れるなら、 ERC-4337 と ERC-4337 Documentation の実践的なエコシステムドキュメントから始めましょう。
-
AI支援詐欺とソーシャルエンジニアリングがスケールアップしています。Chainalysisによると、AIベンダーに関連する詐欺は、平均して1オペレーションあたりの被害額が大幅に大きくなっています。 2026 Crypto Crime Report の詐欺に関するレポートを参照してください。エンドユーザーがAIに「これは署名しても安全か?」と尋ねることが増えるにつれて、モデルの信頼性は単なるエンジニアリングの好みではなく、消費者保護の問題となります。
3) 本当の教訓:LLMは今や本番環境の依存関係—そのように扱いましょう
暗号資産チームはすでに(苦労して)重要な依存関係のバージョン管理を学んでいます:コンパイラバージョン、RPCプロバイダー、カストディモジュール、署名ライブラリ。LLMエージェントも今や同じカテゴリに属します。
実践的なWeb3プレイブック:
A) プロトコルのテストスイートを構築するように、「LLMリグレッションテスト」を構築する
- 代表的なタスクをキャプチャする:コントラクトアップグレードフロー、クロスチェーンメッセージング、インデクサーのバックフィル、手数料計算のリファクタリング。
- 毎週同じプロンプトを実行し、結果をdiffする。
- マージは、単体テスト、不変条件、シミュレーション、静的解析といった決定論的なチェックでゲートする。
Solidityをデプロイする場合、Ethereumのガイドラインページでは、Slither / Echidnaスタイルの分析ワークフローのようなツールが明示的に参照されています。スマートコントラクトセキュリティガイドライン から始めましょう。
B) クリティカルなリポジトリから「自動承認編集」を削除する
Issueレポートでは、変更が自動承認されたワークフローが指摘されています。これは生産性向上につながりますが、エージェントが静かに慎重から無謀へとシフトしてしまうまでは。
スマートコントラクトにおいては、AIをジュニアコントリビューターのように扱いましょう:
- 人間によるコードレビューを要求する
- テストとローカルシミュレーションの合格を要求する
- 権限変更、新しい外部呼び出し、ストレージレイアウト変更については明示的な承認を要求する
C) 無駄な処理にハードリミットを設ける(コスト管理はセキュリティ管理である)
品質が低下すると、エージェントはより多くの処理を行うことで補償します:より多くのツール呼び出し、より多くのリトライ、より多くのトークン消費。サーキットブレーカーが必要です:
- タスクあたりの最大リトライ回数
- セッションあたりの最大ツール呼び出し回数
- 最大コンテキスト成長量
- 「マージされたPRあたりのコスト」または「解決されたチケットあたりのコスト」に関するアラート
これが「コンピューティングの節約」が100倍の請求書のサプライズへと変わるのを防ぐ方法です。
D) プロンプトテンプレートだけでなく、LLMの脅威モデリングを行う
本番環境のキー、RPCエンドポイント、または署名フローに触れるエージェントを構築している場合は、OWASP Top 10 for Large Language Model Applications のようなセキュリティフレームワークに沿って、プロンプトインジェクションやツールの誤用を第一級のリスクとして扱いましょう。
4) 一般ユーザー向け:AIは暗号資産を理解するのを助けることができるが、あなたのキーを制御すべきではない
AIアシスタントがウォレット、取引、カスタマーサポートのデフォルトインターフェースになるにつれて、最も可能性の高い失敗モードは「悪いコード生成」ではなく、悪い署名判断—特にフィッシングのプレッシャー下での—となります。
2つの譲れない点:
- シードフレーズを、いかなるAIチャット、「サポートボット」、またはブラウザフォームにも貼り付けないこと。
- 「アドバイス」と「承認」を分離すること:AIに要約はさせて、資金移動には物理的な確認を要求すること。
その分離こそが、ハードウェアウォレットがその価値を発揮する場所なのです。
5) OneKeyの役割:AIをオプションに、署名を明示的に
もしあなたのワークフロー(またはあなたのユーザー)が、AI(トランザクションの説明、コントラクトインタラクション、オンチェーン「エージェント」自動化など)にますます依存するようになるのであれば、最も安全なアーキテクチャは以下のようになります:
- AIが提案できる
- あなたのアプリがシミュレーションできる
- あなたのハードウェアウォレットが承認しなければならない
AIが飽和した暗号資産スタックにおけるOneKeyの実用的な価値はシンプルです:プライベートキーをオフラインに保ち、明示的な署名ステップを強制することで、モデルの劣化、悪意のあるプロンプト、または説得力のあるディープフェイクの「サポートメッセージ」が、取り返しのつかないオンチェーン損失につながる可能性を減らします。
最後に: 「安価な推論」は、特に暗号資産分野では安価ではない
AMDのレポートは、めったにない貴重な贈り物です:それは、漠然とした恐怖(「最近モデルの調子が悪い」)を、測定可能なシステム挙動と厳しいコスト曲線へと変えます。ブロックチェーンでは、正確さが金銭であり、間違いは永続的です。教訓は簡単です:
リクエストあたりのトークンコストを最適化するな。意思決定あたりの正確さを最適化せよ。



