“解放者普林尼,”说他在新推出的《寓言5》中“巧妙地发现了思想警察忽视的围栏漏洞”。
一位人工智能和网络安全研究人员声称,在Anthropic最新的AI模型Claude Fable 5发布后仅48小时内就成功越狱。
人工智能社区知名人物“解放者普林尼”周三表示,他“解放”了《寓言5》,该游戏于周二发布,作为更强大Mythos模型的安全调校版本,Anthropic认为该模型过于危险,无法广泛发布。
他使用了多种技术,包括越狱版的Opus 4.8,绕过了Anthropic为模型安装的内置保护措施,防止用户向其索取潜在有害信息,如制药配方或黑客操作说明。
“尽管在Mythos之上有这层过于敏感、专制的'安全'层,我的小解放者们一直在努力......巧妙地找到思想警察忽视的围栏漏洞,“普林尼说。
今年早些时候,一些加密用户在《Claude Fable 5》和《Mythos》发布时就表达了担忧,担心它可能被用来攻击加密协议和软件。越狱版的《克劳德寓言5》意味着威胁比预期更近。
绕过《克劳德·寓言5》的限制
“Pliny”大约在2024年崭露头角,当时他开发并公开分享了ChatGPT、Claude、Grok等模型的越狱提示,经常在新AI模型发布后不久发布“越狱警报”,利用绕过防护措施的技巧。
为了绕过Anthropic的安全围栏,普林尼表示他使用了Unicode和同形文字、长上下文框架、叙事与虚构框架、学术风格的分解-重组,以及越狱的Claude作品4.8,让Fable对其受限的提示做出回应。
“也许最有效的是在后端进行分解+重组,”他说。
这包括将请求拆解成小而无害的部分,逐一询问听起来无害的事实。每个提示单独看AI的安全过滤器都没问题,但拼凑起来后,会产生更有用或更危险的东西。
关于《寓言5》坐骑的反弹
Anthropic的《寓言5》自发售以来因其严苛的限制引发了评论家的强烈反对。
当用户提示模型涉及生物武器或网络安全等敏感话题时,Fable 5 设计为返回通知,然后将对话重定向到更早且功能较差的模型。
相关报道:专家警告,持有加密货币的AI代理可能逃脱并变得“不可阻挡”
“这是AI公司首次推出护栏,且普遍遭到一致的轻视。据《华尔街日报》报道,普林斯顿大学人工智能研究员萨亚什·卡普尔表示,这导致了许多合理的愤怒。
普林尼说:“普遍共识似乎是有史以来最令人失望的模型发布之一,实际上阻碍了正规研究人员为我们的集体进步贡献才华。”
Anthropic 没有发现普遍的越狱案例
在《寓言5》发布期间,Anthropic表示他们运行了一个外部漏洞赏金计划,寻找越狱AI模型的方法。
“除了内部测试,我们还运行了外部的漏洞悬赏,测试超过1000小时,但没有产生任何通用越狱。”

