BlockSec的研究人员发现,由OpenAI和Paradigm开发的人工智能驱动智能合约审计基准工具EVMBench,可能对AI自动化消除人工监督的能力过于乐观。


EVMBench测试了AI代理在智能合约安全任务上的检测、修补和漏洞利用,据称取得了令人印象深刻的成果。


EVMBench开发者在2月的一篇博客中表示,AI能够利用72%的智能合约漏洞并检测到约45%的漏洞,引用了120个Code4rena审计的精选案例,表明“发现”是自动化审计的主要瓶颈。


BlockSec希望重新测试这些结果,并在最近一篇题为《重新评估EVMBench》的论文中指出,OpenAI和Paradigm的测试条件可能混淆了其结果。


“EVMBench表示,AI能够利用72%的智能合约漏洞,业界开始讨论全自动化审计。我们用更多配置和22起真实攻击事件进行了重新测试。利用成功率:0%。“BlockSec联合创始人周亚瑾在X帖子中表示。


作者通过混合匹配不同机器人到不同的模型架构,将模型配置数量增加到26种,例如在ChatGPT架构上运行Claude,认为最初测试14种代理配置时,模型基本限制在了其原生厂商架构中。


他们辩称:“你无法判断一个代理的表现是反映模型的能力还是支架的优势。”


此外,BlockSec 在原始报告中对数据污染提出了担忧,该报告测试了此前发布于 40 个 Code4rena 仓库的已知漏洞,这些漏洞可能最终进入人工智能的训练数据中。


为了解决这个问题,作者在2026年2月中旬之后的22起真实安全事件中测试了机器人,“因此这些事件都超出了每个模型的训练窗口。”

结果

也许最重要的是,作者发现他们测试的110对代理事件中,涉及5位代理运行同样22起事件,但没有一次端到端的漏洞利用成功,表明即使是最先进的人工智能也远未运行真实世界的漏洞利用。


尽管如此,BlockSec 在 AI 漏洞检测上的 ReEVMBench 测试结果与原始报告大致一致,其中 Claude Opus 4.6 表现最佳,发现了 20 个现实世界漏洞中的 13 个。


“难度分布有明确的规律。几乎所有代理人都检测到6起事件(87.5%至100%),涉及诸如卖钩储备操控和无节制的倍增溢出等众所周知的模式。但有四起事件没有人发现,五起只有八名特工中的一人发现了。“周文中写道。


“这些发现挑战了”全自动人工智能审计即将到来“的说法。特工能够可靠地捕捉已知的模式,并对人类提供的情境做出强烈反应,但无法取代人类判断,“他补充道。


周博士总结道,“EVMBench是一项宝贵的贡献”,为加密安全行业提供了评估标准。他还表示,人工智能和人类研究人员已经在执行不同且同样有用的任务,彼此互补弱点。


“真正的问题不是'人工智能能否取代人类?'而是'人类与人工智能应如何协同工作?'人工智能负责广度(系统扫描);人类负责深度(协议知识、对抗性推理)。双方都无法胜任对方的工作。两者合在一起构成了完整的审计能力,“周写道。


“人工智能审计确实有价值,但替代人类还远未达标。正确的方向是人机协作,“他补充道。


微信扫一扫