Claude 越用越「笨」:隱藏的「省錢」成本是 100 倍的 API 帳單

2026年4月13日

Claude 越用越「笨」:隱藏的「省錢」成本是 100 倍的 API 帳單

幾天前,AMD AI 總監 Stella Laurenzo 在官方 Claude Code 儲存庫中發布了一個極具技術性的問題:「Claude Code 在經過 2 月份的更新後,對於複雜的工程任務已無法使用。」這並非僅是感覺上的抱怨,而是基於真實工作流程中收集到的 6,852 次對話、17,871 個思考區塊和 234,760 次工具呼叫所做的量化事後分析。您可以在此閱讀原始報告:GitHub issue #42796

如果您從事加密貨幣領域的開發,您應該關注此事,因為「複雜工程」基本上是 Web3 的預設模式:智能合約是不可篡改的,攻擊面是可組合的,任何一個單獨的錯誤資訊都可能成為利用漏洞的途徑。在實際應用中,看似 AI 產品的小故障,實則是 軟體供應鏈風險,以及成本陷阱。


1) 令人不安的數據:品質下降,成本(急劇)上升

該報告將明顯的品質退化與伺服器端關於擴展思考思考編輯(特別是標記為 redact-thinking-2026-02-12 的版本)的配置變更聯繫起來。其關鍵論點不僅僅是「輸出變差了」,而是模型的行為從「先研究後編輯」明顯轉向「先編輯後研究」——這對於高風險工程而言,是完全錯誤的方向。

以下是基於 issue 討論串中指標的簡化快照:

信號(來自對話遙測數據)「良好」時期「劣化」時期對加密貨幣為何重要
預計思考深度(中位數)~2,200 字元~560–720 字元推理較少 → 「自信地犯錯」的修補程式更多
讀取 : 編輯比例6.62.0在理解前編輯會產生脆弱的差異 (diffs)
停止鉤子違規0173在多步驟重構中過早停止是致命的
預估成本(Bedrock Opus 比較)$345 (2 月)$42,121 (3 月)「更便宜的思考」可能導致重試和無謂的消耗增加

資料來源:GitHub issue 中的原始遙測數據和成本附錄。

對加密貨幣最相關的教訓是違反直覺的:削減推理並不一定能降低支出。在長時間運行的任務中,較弱的代理可能會觸發更多的重試、更正和工具呼叫——使您的帳單增加 100 倍以上,同時仍提供較差的可靠性。


2) 為何這對區塊鏈團隊造成的打擊比一般軟體團隊更大

智能合約不容忍「差不多就行」

在 Web2 中,一個退化可以被修補和重新部署。在 Web3 中,一個錯誤的假設可能會被永恆化。

以太坊自己的文件闡述得很清楚:已部署的程式碼難以更改,損失通常是無法挽回的——參見 以太坊智能合約安全文件 和更廣泛的 安全指南

現在將此與 Claude Code 的遙測數據聯繫起來:文件讀取次數減少,編輯意願更強,過早停止的情況更多。這正是導致以下情況的模式:

  • 不完整的檢查(授權、重播保護、域分隔)
  • 模組之間不一致的狀態
  • 忽略代幣小數位、交易費用、四捨五入時的邊緣情況處理
  • 不安全的外部呼叫或不當的狀態更新

在 DeFi 和鏈上基礎設施領域,「近乎正確」通常等於可被利用

2025–2026 年的複雜性趨勢放大了影響範圍

兩項行業轉變使得「AI 代理退化」的故事在加密貨幣領域比看起來更危險:

  1. 帳戶抽象和智能帳戶正在普及,這使得更多安全關鍵邏輯存在於合約中,而不是 EOA。如果您的產品涉及 AA,請從 ERC-4337ERC-4337 文件 中的實用生態系統文件開始。

  2. AI 輔助的詐騙和社會工程正在規模化。Chainalysis 指出,與 AI 供應商相關的詐騙平均每次操作可獲取更多的資金;請參閱他們在 2026 年加密犯罪報告 中關於詐騙的報導。當最終用戶越來越多地詢問 AI「簽署這個安全嗎?」時,模型的可靠性就成為消費者保護問題,而不僅僅是工程偏好。


3) 真正的啟示:LLM 現已成為生產依賴,應對其如同對待生產依賴一樣

加密貨幣團隊已經(以艱難的方式)學會了對關鍵依賴項進行版本控制:編譯器版本、RPC 提供商、託管模組、簽署庫。LLM 代理現已屬於同一類別。

實用的 Web3 手冊:

A) 像構建協議測試套件一樣構建「LLM 回歸測試」

  • 捕獲代表性任務:合約升級流程、跨鏈消息傳遞、索引器回填、費用數學重構。
  • 每週運行相同的提示;比較結果差異。
  • 通過確定性檢查來限制合併:單元測試、不變式、模擬和靜態分析。

如果您部署 Solidity,以太坊的指南頁面明確提到了 Slither / Echidna 風格分析工作流程等工具——請從 智能合約安全指南 開始。

B) 從關鍵儲存庫中移除「自動接受編輯」

該 issue 報告提到了自動接受變更的工作流程。這可以提高生產力,直到代理悄無聲息地從謹慎轉為魯莽。

對於智能合約,將 AI 視為初級貢獻者:

  • 要求人工程式碼審查
  • 要求通過測試和本地模擬
  • 對權限變更、新的外部呼叫或儲存佈局變更要求明確批准

C) 為無謂消耗設定硬性上限(成本控制就是安全控制)

當品質下降時,代理會通過做更多事情來彌補:更多的工具呼叫、更多的重試、更多的代幣消耗。您需要斷路器:

  • 每個任務的最大重試次數
  • 每個對話的最大工具呼叫次數
  • 最大上下文增長
  • 警報「每次合併 PR 的成本」或「每次解決 Ticket 的成本」

這就是如何防止「節省計算」變成 100 倍的意外帳單。

D) 風險評估 LLM,而不僅僅使用提示模板

如果您正在構建涉及生產金鑰、RPC 端點或簽署流程的代理,請遵循安全框架,例如 大型語言模型應用程式的 OWASP Top 10,並將提示注入/工具濫用視為一級風險。


4) 對於日常使用者:AI 可以幫助您理解加密貨幣,但不應控制您的金鑰

隨著 AI 助理成為錢包、交易和客戶支援的預設介面,最有可能的失敗模式不是「不良的程式碼生成」,而是不良的簽署決策——尤其是在網路釣魚壓力下。

兩項不可妥協的原則:

  1. 絕不要將種子詞 (seed phrases) 貼入任何 AI 聊天、"支援機器人"或瀏覽器表單。
  2. 將「建議」與「授權」分開:讓 AI 進行總結,但在轉移資金時需要實體確認

這正是硬體錢包發揮作用的地方。


5) OneKey 的定位:讓 AI 成為可選項,讓簽署明確化

如果您的工作流程(或您的用戶)越來越依賴 AI——無論是為了交易解釋、合約互動,還是鏈上「代理」自動化——最安全的架構是:

  • AI 可以提出建議
  • 您的應用程式可以模擬
  • 您的硬體錢包必須批准

在一眾 AI 充斥的加密貨幣堆疊中,OneKey 的實際價值很簡單:它有助於將私鑰保持離線狀態,並強制執行明確的簽署步驟,從而降低因模型退化、提示被污染或令人信服的深度偽造「支援訊息」而導致不可逆轉的鏈上損失的機率。


結語:「更便宜的推理」並不便宜——尤其是在加密貨幣領域

AMD 的報告是一份稀有的饋贈:它將模糊的擔憂(「模型最近感覺變差了」)轉化為可量化的系統行為和硬性的成本曲線。在區塊鏈領域,正確性即金錢,錯誤是永久性的,其教訓很直接:

不要優化每個請求的代幣成本。優化每次決策的正確性。

使用 OneKey 保護您的加密之旅

View details for 選購 OneKey選購 OneKey

選購 OneKey

全球最先進嘅硬件錢包。

View details for 下載應用程式下載應用程式

下載應用程式

詐騙預警。支援所有幣種。

View details for OneKey SifuOneKey Sifu

OneKey Sifu

即刻諮詢,掃除疑慮。