Claude 越用越「笨」:隱藏的「省錢」成本是 100 倍的 API 帳單
Claude 越用越「笨」:隱藏的「省錢」成本是 100 倍的 API 帳單
幾天前,AMD AI 總監 Stella Laurenzo 在官方 Claude Code 儲存庫中發布了一個極具技術性的問題:「Claude Code 在經過 2 月份的更新後,對於複雜的工程任務已無法使用。」這並非僅是感覺上的抱怨,而是基於真實工作流程中收集到的 6,852 次對話、17,871 個思考區塊和 234,760 次工具呼叫所做的量化事後分析。您可以在此閱讀原始報告:GitHub issue #42796。
如果您從事加密貨幣領域的開發,您應該關注此事,因為「複雜工程」基本上是 Web3 的預設模式:智能合約是不可篡改的,攻擊面是可組合的,任何一個單獨的錯誤資訊都可能成為利用漏洞的途徑。在實際應用中,看似 AI 產品的小故障,實則是 軟體供應鏈風險,以及成本陷阱。
1) 令人不安的數據:品質下降,成本(急劇)上升
該報告將明顯的品質退化與伺服器端關於擴展思考和思考編輯(特別是標記為 redact-thinking-2026-02-12 的版本)的配置變更聯繫起來。其關鍵論點不僅僅是「輸出變差了」,而是模型的行為從「先研究後編輯」明顯轉向「先編輯後研究」——這對於高風險工程而言,是完全錯誤的方向。
以下是基於 issue 討論串中指標的簡化快照:
資料來源:GitHub issue 中的原始遙測數據和成本附錄。
對加密貨幣最相關的教訓是違反直覺的:削減推理並不一定能降低支出。在長時間運行的任務中,較弱的代理可能會觸發更多的重試、更正和工具呼叫——使您的帳單增加 100 倍以上,同時仍提供較差的可靠性。
2) 為何這對區塊鏈團隊造成的打擊比一般軟體團隊更大
智能合約不容忍「差不多就行」
在 Web2 中,一個退化可以被修補和重新部署。在 Web3 中,一個錯誤的假設可能會被永恆化。
以太坊自己的文件闡述得很清楚:已部署的程式碼難以更改,損失通常是無法挽回的——參見 以太坊智能合約安全文件 和更廣泛的 安全指南。
現在將此與 Claude Code 的遙測數據聯繫起來:文件讀取次數減少,編輯意願更強,過早停止的情況更多。這正是導致以下情況的模式:
- 不完整的檢查(授權、重播保護、域分隔)
- 模組之間不一致的狀態
- 忽略代幣小數位、交易費用、四捨五入時的邊緣情況處理
- 不安全的外部呼叫或不當的狀態更新
在 DeFi 和鏈上基礎設施領域,「近乎正確」通常等於可被利用。
2025–2026 年的複雜性趨勢放大了影響範圍
兩項行業轉變使得「AI 代理退化」的故事在加密貨幣領域比看起來更危險:
-
帳戶抽象和智能帳戶正在普及,這使得更多安全關鍵邏輯存在於合約中,而不是 EOA。如果您的產品涉及 AA,請從 ERC-4337 和 ERC-4337 文件 中的實用生態系統文件開始。
-
AI 輔助的詐騙和社會工程正在規模化。Chainalysis 指出,與 AI 供應商相關的詐騙平均每次操作可獲取更多的資金;請參閱他們在 2026 年加密犯罪報告 中關於詐騙的報導。當最終用戶越來越多地詢問 AI「簽署這個安全嗎?」時,模型的可靠性就成為消費者保護問題,而不僅僅是工程偏好。
3) 真正的啟示:LLM 現已成為生產依賴,應對其如同對待生產依賴一樣
加密貨幣團隊已經(以艱難的方式)學會了對關鍵依賴項進行版本控制:編譯器版本、RPC 提供商、託管模組、簽署庫。LLM 代理現已屬於同一類別。
實用的 Web3 手冊:
A) 像構建協議測試套件一樣構建「LLM 回歸測試」
- 捕獲代表性任務:合約升級流程、跨鏈消息傳遞、索引器回填、費用數學重構。
- 每週運行相同的提示;比較結果差異。
- 通過確定性檢查來限制合併:單元測試、不變式、模擬和靜態分析。
如果您部署 Solidity,以太坊的指南頁面明確提到了 Slither / Echidna 風格分析工作流程等工具——請從 智能合約安全指南 開始。
B) 從關鍵儲存庫中移除「自動接受編輯」
該 issue 報告提到了自動接受變更的工作流程。這可以提高生產力,直到代理悄無聲息地從謹慎轉為魯莽。
對於智能合約,將 AI 視為初級貢獻者:
- 要求人工程式碼審查
- 要求通過測試和本地模擬
- 對權限變更、新的外部呼叫或儲存佈局變更要求明確批准
C) 為無謂消耗設定硬性上限(成本控制就是安全控制)
當品質下降時,代理會通過做更多事情來彌補:更多的工具呼叫、更多的重試、更多的代幣消耗。您需要斷路器:
- 每個任務的最大重試次數
- 每個對話的最大工具呼叫次數
- 最大上下文增長
- 警報「每次合併 PR 的成本」或「每次解決 Ticket 的成本」
這就是如何防止「節省計算」變成 100 倍的意外帳單。
D) 風險評估 LLM,而不僅僅使用提示模板
如果您正在構建涉及生產金鑰、RPC 端點或簽署流程的代理,請遵循安全框架,例如 大型語言模型應用程式的 OWASP Top 10,並將提示注入/工具濫用視為一級風險。
4) 對於日常使用者:AI 可以幫助您理解加密貨幣,但不應控制您的金鑰
隨著 AI 助理成為錢包、交易和客戶支援的預設介面,最有可能的失敗模式不是「不良的程式碼生成」,而是不良的簽署決策——尤其是在網路釣魚壓力下。
兩項不可妥協的原則:
- 絕不要將種子詞 (seed phrases) 貼入任何 AI 聊天、"支援機器人"或瀏覽器表單。
- 將「建議」與「授權」分開:讓 AI 進行總結,但在轉移資金時需要實體確認。
這正是硬體錢包發揮作用的地方。
5) OneKey 的定位:讓 AI 成為可選項,讓簽署明確化
如果您的工作流程(或您的用戶)越來越依賴 AI——無論是為了交易解釋、合約互動,還是鏈上「代理」自動化——最安全的架構是:
- AI 可以提出建議
- 您的應用程式可以模擬
- 您的硬體錢包必須批准
在一眾 AI 充斥的加密貨幣堆疊中,OneKey 的實際價值很簡單:它有助於將私鑰保持離線狀態,並強制執行明確的簽署步驟,從而降低因模型退化、提示被污染或令人信服的深度偽造「支援訊息」而導致不可逆轉的鏈上損失的機率。
結語:「更便宜的推理」並不便宜——尤其是在加密貨幣領域
AMD 的報告是一份稀有的饋贈:它將模糊的擔憂(「模型最近感覺變差了」)轉化為可量化的系統行為和硬性的成本曲線。在區塊鏈領域,正確性即金錢,錯誤是永久性的,其教訓很直接:
不要優化每個請求的代幣成本。優化每次決策的正確性。



