Claude 越用越「笨」：隱藏的「省錢」成本是 100 倍的 API 帳單

2026年4月13日

Claude 越用越「笨」：隱藏的「省錢」成本是 100 倍的 API 帳單

幾天前，AMD AI 總監 Stella Laurenzo 在官方 Claude Code 儲存庫中發布了一個極具技術性的問題：「Claude Code 在經過 2 月份的更新後，對於複雜的工程任務已無法使用。」這並非僅是感覺上的抱怨，而是基於真實工作流程中收集到的 6,852 次對話、17,871 個思考區塊和 234,760 次工具呼叫所做的量化事後分析。您可以在此閱讀原始報告：GitHub issue #42796。

如果您從事加密貨幣領域的開發，您應該關注此事，因為「複雜工程」基本上是 Web3 的預設模式：智能合約是不可篡改的，攻擊面是可組合的，任何一個單獨的錯誤資訊都可能成為利用漏洞的途徑。在實際應用中，看似 AI 產品的小故障，實則是 軟體供應鏈風險，以及成本陷阱。

1) 令人不安的數據：品質下降，成本（急劇）上升

該報告將明顯的品質退化與伺服器端關於擴展思考和思考編輯（特別是標記為 redact-thinking-2026-02-12 的版本）的配置變更聯繫起來。其關鍵論點不僅僅是「輸出變差了」，而是模型的行為從「先研究後編輯」明顯轉向「先編輯後研究」——這對於高風險工程而言，是完全錯誤的方向。

以下是基於 issue 討論串中指標的簡化快照：

信號（來自對話遙測數據）	「良好」時期	「劣化」時期	對加密貨幣為何重要
預計思考深度（中位數）	~2,200 字元	~560–720 字元	推理較少 → 「自信地犯錯」的修補程式更多
讀取 : 編輯比例	6.6	2.0	在理解前編輯會產生脆弱的差異 (diffs)
停止鉤子違規	0	173	在多步驟重構中過早停止是致命的
預估成本（Bedrock Opus 比較）	$345 (2 月)	$42,121 (3 月)	「更便宜的思考」可能導致重試和無謂的消耗增加

資料來源：GitHub issue 中的原始遙測數據和成本附錄。

對加密貨幣最相關的教訓是違反直覺的：削減推理並不一定能降低支出。在長時間運行的任務中，較弱的代理可能會觸發更多的重試、更正和工具呼叫——使您的帳單增加 100 倍以上，同時仍提供較差的可靠性。

2) 為何這對區塊鏈團隊造成的打擊比一般軟體團隊更大

智能合約不容忍「差不多就行」

在 Web2 中，一個退化可以被修補和重新部署。在 Web3 中，一個錯誤的假設可能會被永恆化。

以太坊自己的文件闡述得很清楚：已部署的程式碼難以更改，損失通常是無法挽回的——參見以太坊智能合約安全文件和更廣泛的安全指南。

現在將此與 Claude Code 的遙測數據聯繫起來：文件讀取次數減少，編輯意願更強，過早停止的情況更多。這正是導致以下情況的模式：

不完整的檢查（授權、重播保護、域分隔）
模組之間不一致的狀態
忽略代幣小數位、交易費用、四捨五入時的邊緣情況處理
不安全的外部呼叫或不當的狀態更新

在 DeFi 和鏈上基礎設施領域，「近乎正確」通常等於可被利用。

2025–2026 年的複雜性趨勢放大了影響範圍

兩項行業轉變使得「AI 代理退化」的故事在加密貨幣領域比看起來更危險：

帳戶抽象和智能帳戶正在普及，這使得更多安全關鍵邏輯存在於合約中，而不是 EOA。如果您的產品涉及 AA，請從 ERC-4337 和 ERC-4337 文件中的實用生態系統文件開始。
AI 輔助的詐騙和社會工程正在規模化。Chainalysis 指出，與 AI 供應商相關的詐騙平均每次操作可獲取更多的資金；請參閱他們在 2026 年加密犯罪報告中關於詐騙的報導。當最終用戶越來越多地詢問 AI「簽署這個安全嗎？」時，模型的可靠性就成為消費者保護問題，而不僅僅是工程偏好。

3) 真正的啟示：LLM 現已成為生產依賴，應對其如同對待生產依賴一樣

加密貨幣團隊已經（以艱難的方式）學會了對關鍵依賴項進行版本控制：編譯器版本、RPC 提供商、託管模組、簽署庫。LLM 代理現已屬於同一類別。

實用的 Web3 手冊：

A) 像構建協議測試套件一樣構建「LLM 回歸測試」

捕獲代表性任務：合約升級流程、跨鏈消息傳遞、索引器回填、費用數學重構。
每週運行相同的提示；比較結果差異。
通過確定性檢查來限制合併：單元測試、不變式、模擬和靜態分析。

如果您部署 Solidity，以太坊的指南頁面明確提到了 Slither / Echidna 風格分析工作流程等工具——請從智能合約安全指南開始。

B) 從關鍵儲存庫中移除「自動接受編輯」

該 issue 報告提到了自動接受變更的工作流程。這可以提高生產力，直到代理悄無聲息地從謹慎轉為魯莽。

對於智能合約，將 AI 視為初級貢獻者：

要求人工程式碼審查
要求通過測試和本地模擬
對權限變更、新的外部呼叫或儲存佈局變更要求明確批准

C) 為無謂消耗設定硬性上限（成本控制就是安全控制）

當品質下降時，代理會通過做更多事情來彌補：更多的工具呼叫、更多的重試、更多的代幣消耗。您需要斷路器：

每個任務的最大重試次數
每個對話的最大工具呼叫次數
最大上下文增長
警報「每次合併 PR 的成本」或「每次解決 Ticket 的成本」

這就是如何防止「節省計算」變成 100 倍的意外帳單。

D) 風險評估 LLM，而不僅僅使用提示模板

如果您正在構建涉及生產金鑰、RPC 端點或簽署流程的代理，請遵循安全框架，例如大型語言模型應用程式的 OWASP Top 10，並將提示注入/工具濫用視為一級風險。

4) 對於日常使用者：AI 可以幫助您理解加密貨幣，但不應控制您的金鑰

隨著 AI 助理成為錢包、交易和客戶支援的預設介面，最有可能的失敗模式不是「不良的程式碼生成」，而是不良的簽署決策——尤其是在網路釣魚壓力下。

兩項不可妥協的原則：

絕不要將種子詞 (seed phrases) 貼入任何 AI 聊天、"支援機器人"或瀏覽器表單。
將「建議」與「授權」分開：讓 AI 進行總結，但在轉移資金時需要實體確認。

這正是硬體錢包發揮作用的地方。

5) OneKey 的定位：讓 AI 成為可選項，讓簽署明確化

如果您的工作流程（或您的用戶）越來越依賴 AI——無論是為了交易解釋、合約互動，還是鏈上「代理」自動化——最安全的架構是：

AI 可以提出建議
您的應用程式可以模擬
您的硬體錢包必須批准

在一眾 AI 充斥的加密貨幣堆疊中，OneKey 的實際價值很簡單：它有助於將私鑰保持離線狀態，並強制執行明確的簽署步驟，從而降低因模型退化、提示被污染或令人信服的深度偽造「支援訊息」而導致不可逆轉的鏈上損失的機率。

結語：「更便宜的推理」並不便宜——尤其是在加密貨幣領域

AMD 的報告是一份稀有的饋贈：它將模糊的擔憂（「模型最近感覺變差了」）轉化為可量化的系統行為和硬性的成本曲線。在區塊鏈領域，正確性即金錢，錯誤是永久性的，其教訓很直接：

不要優化每個請求的代幣成本。優化每次決策的正確性。

Claude 越用越「笨」：隱藏的「省錢」成本是 100 倍的 API 帳單

Claude 越用越「笨」：隱藏的「省錢」成本是 100 倍的 API 帳單

1) 令人不安的數據：品質下降，成本（急劇）上升

2) 為何這對區塊鏈團隊造成的打擊比一般軟體團隊更大

智能合約不容忍「差不多就行」

2025–2026 年的複雜性趨勢放大了影響範圍

3) 真正的啟示：LLM 現已成為生產依賴，應對其如同對待生產依賴一樣

A) 像構建協議測試套件一樣構建「LLM 回歸測試」

B) 從關鍵儲存庫中移除「自動接受編輯」

C) 為無謂消耗設定硬性上限（成本控制就是安全控制）

D) 風險評估 LLM，而不僅僅使用提示模板

4) 對於日常使用者：AI 可以幫助您理解加密貨幣，但不應控制您的金鑰

5) OneKey 的定位：讓 AI 成為可選項，讓簽署明確化

結語：「更便宜的推理」並不便宜——尤其是在加密貨幣領域

使用 OneKey 保護您的加密之旅

選購 OneKey

下載應用程式

OneKey Sifu