“替代人类还遥不可及”：BlockSec质疑EVMBench的AI审计

BlockSec的研究人员发现，由OpenAI和Paradigm开发的人工智能驱动智能合约审计基准工具EVMBench，可能对AI自动化消除人工监督的能力过于乐观。

EVMBench测试了AI代理在智能合约安全任务上的检测、修补和漏洞利用，据称取得了令人印象深刻的成果。

EVMBench开发者在2月的一篇博客中表示，AI能够利用72%的智能合约漏洞并检测到约45%的漏洞，引用了120个Code4rena审计的精选案例，表明“发现”是自动化审计的主要瓶颈。

BlockSec希望重新测试这些结果，并在最近一篇题为《重新评估EVMBench》的论文中指出，OpenAI和Paradigm的测试条件可能混淆了其结果。

“EVMBench表示，AI能够利用72%的智能合约漏洞，业界开始讨论全自动化审计。我们用更多配置和22起真实攻击事件进行了重新测试。利用成功率：0%。“BlockSec联合创始人周亚瑾在X帖子中表示。

作者通过混合匹配不同机器人到不同的模型架构，将模型配置数量增加到26种，例如在ChatGPT架构上运行Claude，认为最初测试14种代理配置时，模型基本限制在了其原生厂商架构中。

他们辩称：“你无法判断一个代理的表现是反映模型的能力还是支架的优势。”

此外，BlockSec 在原始报告中对数据污染提出了担忧，该报告测试了此前发布于 40 个 Code4rena 仓库的已知漏洞，这些漏洞可能最终进入人工智能的训练数据中。

为了解决这个问题，作者在2026年2月中旬之后的22起真实安全事件中测试了机器人，“因此这些事件都超出了每个模型的训练窗口。”

结果

也许最重要的是，作者发现他们测试的110对代理事件中，涉及5位代理运行同样22起事件，但没有一次端到端的漏洞利用成功，表明即使是最先进的人工智能也远未运行真实世界的漏洞利用。

尽管如此，BlockSec 在 AI 漏洞检测上的 ReEVMBench 测试结果与原始报告大致一致，其中 Claude Opus 4.6 表现最佳，发现了 20 个现实世界漏洞中的 13 个。

“难度分布有明确的规律。几乎所有代理人都检测到6起事件（87.5%至100%），涉及诸如卖钩储备操控和无节制的倍增溢出等众所周知的模式。但有四起事件没有人发现，五起只有八名特工中的一人发现了。“周文中写道。

“这些发现挑战了”全自动人工智能审计即将到来“的说法。特工能够可靠地捕捉已知的模式，并对人类提供的情境做出强烈反应，但无法取代人类判断，“他补充道。

周博士总结道，“EVMBench是一项宝贵的贡献”，为加密安全行业提供了评估标准。他还表示，人工智能和人类研究人员已经在执行不同且同样有用的任务，彼此互补弱点。

“真正的问题不是'人工智能能否取代人类？'而是'人类与人工智能应如何协同工作？'人工智能负责广度（系统扫描）;人类负责深度（协议知识、对抗性推理）。双方都无法胜任对方的工作。两者合在一起构成了完整的审计能力，“周写道。

“人工智能审计确实有价值，但替代人类还远未达标。正确的方向是人机协作，“他补充道。