Claude 越用越“笨”：隐藏的“省钱”代价是 100 倍的 API 账单

2026年4月13日

Claude 越用越“笨”：隐藏的“省钱”代价是 100 倍的 API 账单

几天前，AMD AI 总监 Stella Laurenzo 在 Claude 代码官方仓库中发布了一个尖锐的技术性问题：「Claude 代码在 2 月份的更新后，对于复杂的工程任务已无法使用。」这并非凭空抱怨，而是一项量化的事后分析，基于在真实工作流程中收集到的 6,852 次会话、17,871 个思考区块和 234,760 次工具调用。您可以在此处阅读原始报告：GitHub issue #42796。

如果您在加密领域进行开发，您应该关注这个问题——因为在 Web3 中，“复杂的工程”几乎是默认设置：智能合约是不可变的，攻击面是可组合的，任何一个虚假的改动都可能成为一个漏洞。AI 产品的一个小故障，在实践中就可能变成一个软件供应链风险和一个成本陷阱。

1) 令人不安的数据：质量下降，成本急剧上升

该报告将可观察到的质量退化与服务器端针对扩展思考和思考审查的配置更改联系起来（特别是 redact-thinking-2026-02-12 标记的更新）。其核心论点不仅仅是“输出变差了”，而是模型的行为可衡量地从“先研究后编辑”转变为“先编辑后研究”——这对于高风险工程来说，完全是错误的方向。

以下是根据 issue 线程中指标进行的简化快照：

信号 (来自会话遥测数据)	“良好”时期	“退化”时期	对加密领域为何重要
预估思考深度 (中位数)	~2,200 字符	~560–720 字符	更少的推理 → 更多“自信的错误”修补
阅读 : 编辑比例	6.6	2.0	在理解之前编辑会产生脆弱的差异
停止钩子违规	0	173	多步骤重构中过早停止是致命的
预估成本 (Bedrock Opus 对比)	$345 (2月)	$42,121 (3月)	“更便宜的思考”可能导致重试和混乱增加

来源：GitHub issue 中的原始遥测数据和成本附录。

对加密领域最相关的教训是反直觉的：限制推理并不总能降低支出。在长期任务中，一个较弱的代理可能会触发更多的重试、纠正和工具调用——将您的账单推高超过 100 倍，同时仍提供更差的可靠性。

2) 为何这会比典型的软件团队对区块链团队造成更大影响

智能合约不容忍“差不多就行”

在 Web2 中，一个回归可以被修复和重新部署。但在 Web3 中，一个错误的假设可能会永垂不朽。

以太坊自己的文档很直白：已部署的代码很难更改，损失通常也无法挽回——参见以太坊智能合约安全文档和更广泛的安全指南。

现在将其与 Claude 代码遥测数据联系起来：更少的文件读取，更急切的编辑，更多的过早停止。这正是导致以下结果的模式：

不完整的检查（授权、重放保护、域分隔）
跨模块的损坏不变性
围绕代币精度、收费机制（fee-on-transfer）、舍入的缺失边缘情况处理
不安全的外部调用或放置不当的状态更新

在 DeFi 和链上基础设施中，“几乎正确”通常等同于可被利用。

2025-2026 年的复杂性趋势加剧了爆炸半径

两个行业趋势使得“AI 代理退化”的故事在加密领域比看起来更危险：

账户抽象和智能账户正在普及，增加了存在于合约而非 EOA 中的安全关键逻辑的数量。如果您的产品涉及 AA，请从 ERC-4337 和 ERC-4337 文档的实用生态系统文档开始。
AI 辅助的诈骗和社交工程正在大规模扩散。Chainalysis 指出，与 AI 供应商相关的诈骗平均每次操作造成的损失更大；参见他们关于 2026 年加密犯罪报告中的诈骗的文章。当最终用户越来越多地向 AI 询问“这是签名安全吗？”时，模型的可靠性就成了一个消费者保护问题，而不仅仅是工程偏好。

3) 真正的启示：LLM 现在是生产依赖项——像对待它们一样对待它们

加密团队已经（痛苦地）学会了对关键依赖项进行版本控制：编译器版本、RPC 提供商、托管模块、签名库。LLM 代理现在也属于同一类别。

实用的 Web3 プレイブック：

A) 像构建协议测试套件一样构建“LLM 回归测试”

捕获代表性任务：合约升级流程、跨链消息传递、索引器回填、费用计算重构。
每周运行相同的提示；比较结果。
通过确定性检查来限制合并：单元测试、不变性、模拟和静态分析。

如果您部署 Solidity，以太坊的指南页面明确提到了 Slither / Echidna 风格的分析工作流等工具——从智能合约安全指南开始。

B) 从关键存储库中移除“自动接受编辑”

该问题报告提到了自动接受更改的工作流程。这在初期是提高生产力的便利之举——直到一个代理悄无声息地从谨慎变得鲁莽。

对于智能合约，将 AI 视为一名初级贡献者：

要求人工代码审查
要求通过测试和本地模拟
对权限更改、新的外部调用或存储布局更改要求明确的批准

C) 对混乱设置严格上限（成本控制即安全控制）

当质量下降时，代理会通过做更多的事情来弥补：更多的工具调用，更多的重试，更多的代币消耗。您需要熔断器：

每个任务的最大重试次数
每个会话的最大工具调用次数
最大上下文增长
对“每个已合并 PR 的成本”或“每个已解决工单的成本”进行警报

这就是您如何防止“节省计算”变成一个 100 倍的意外账单。

D) 使用 LLM 威胁模型，而不仅仅是提示模板

如果您正在构建涉及生产密钥、RPC 端点或签名流程的代理，请遵循安全框架，例如 OWASP 大型语言模型应用十大风险，并将提示注入/工具滥用视为首要风险。

4) 对于普通用户：AI 可以帮助您理解加密，但不应控制您的密钥

随着 AI 助手成为钱包、交易和客户支持的默认界面，最可能的故障模式不是“糟糕的代码生成”，而是糟糕的签名决策——尤其是在网络钓鱼压力下。

两个不容妥协的原则：

绝不要将助记词粘贴到任何 AI 聊天、“支持机器人”或浏览器表单中。
将“建议”与“授权”分开：让 AI 进行总结，但必须进行物理确认才能移动资金。

正是这种分离，使得硬件钱包物有所值。

5) OneKey 的定位：让 AI 可选，让签名明确

如果您的工作流程（或您的用户）越来越依赖 AI——无论是用于交易解释、合约交互，还是链上“代理”自动化——最安全的方法是：

AI 可以提出建议
您的应用程序可以进行模拟
您的硬件钱包必须批准

在 AI 泛滥的加密堆栈中，OneKey 的实际价值很简单：它有助于将私钥保持离线状态，并强制进行显式的签名步骤，从而降低因模型退化、提示被污染或令人信服的深度伪造“支持消息”而造成的不可逆转的链上损失的可能性。

结束语：“便宜的推理”并非真的便宜——尤其是在加密领域

AMD 的报告是一份罕见的礼物：它将一种含糊不清的担忧（“模型最近感觉变差了”）转化为可衡量的系统行为和硬性的成本曲线。在区块链领域，正确性就是金钱，错误是永久性的，其教训很直接：

不要优化单次请求的代币成本。要优化每次决策的正确性。

Claude 越用越“笨”：隐藏的“省钱”代价是 100 倍的 API 账单

Claude 越用越“笨”：隐藏的“省钱”代价是 100 倍的 API 账单

1) 令人不安的数据：质量下降，成本急剧上升

2) 为何这会比典型的软件团队对区块链团队造成更大影响

智能合约不容忍“差不多就行”

2025-2026 年的复杂性趋势加剧了爆炸半径

3) 真正的启示：LLM 现在是生产依赖项——像对待它们一样对待它们

A) 像构建协议测试套件一样构建“LLM 回归测试”

B) 从关键存储库中移除“自动接受编辑”

C) 对混乱设置严格上限（成本控制即安全控制）

D) 使用 LLM 威胁模型，而不仅仅是提示模板

4) 对于普通用户：AI 可以帮助您理解加密，但不应控制您的密钥

5) OneKey 的定位：让 AI 可选，让签名明确

结束语：“便宜的推理”并非真的便宜——尤其是在加密领域

使用 OneKey 保护您的加密之旅

选购 OneKey

下载应用程序

OneKey Sifu