一位人工智能研究员声称他已经绕过了人类学的《寓言5》护栏

“解放者普林尼，”说他在新推出的《寓言5》中“巧妙地发现了思想警察忽视的围栏漏洞”。

一位人工智能和网络安全研究人员声称，在Anthropic最新的AI模型Claude Fable 5发布后仅48小时内就成功越狱。

人工智能社区知名人物“解放者普林尼”周三表示，他“解放”了《寓言5》，该游戏于周二发布，作为更强大Mythos模型的安全调校版本，Anthropic认为该模型过于危险，无法广泛发布。

他使用了多种技术，包括越狱版的Opus 4.8，绕过了Anthropic为模型安装的内置保护措施，防止用户向其索取潜在有害信息，如制药配方或黑客操作说明。

“尽管在Mythos之上有这层过于敏感、专制的'安全'层，我的小解放者们一直在努力......巧妙地找到思想警察忽视的围栏漏洞，“普林尼说。

今年早些时候，一些加密用户在《Claude Fable 5》和《Mythos》发布时就表达了担忧，担心它可能被用来攻击加密协议和软件。越狱版的《克劳德寓言5》意味着威胁比预期更近。

绕过《克劳德·寓言5》的限制

“Pliny”大约在2024年崭露头角，当时他开发并公开分享了ChatGPT、Claude、Grok等模型的越狱提示，经常在新AI模型发布后不久发布“越狱警报”，利用绕过防护措施的技巧。

为了绕过Anthropic的安全围栏，普林尼表示他使用了Unicode和同形文字、长上下文框架、叙事与虚构框架、学术风格的分解-重组，以及越狱的Claude作品4.8，让Fable对其受限的提示做出回应。

“也许最有效的是在后端进行分解+重组，”他说。

这包括将请求拆解成小而无害的部分，逐一询问听起来无害的事实。每个提示单独看AI的安全过滤器都没问题，但拼凑起来后，会产生更有用或更危险的东西。

关于《寓言5》坐骑的反弹

Anthropic的《寓言5》自发售以来因其严苛的限制引发了评论家的强烈反对。

当用户提示模型涉及生物武器或网络安全等敏感话题时，Fable 5 设计为返回通知，然后将对话重定向到更早且功能较差的模型。

相关报道：专家警告，持有加密货币的AI代理可能逃脱并变得“不可阻挡”

“这是AI公司首次推出护栏，且普遍遭到一致的轻视。据《华尔街日报》报道，普林斯顿大学人工智能研究员萨亚什·卡普尔表示，这导致了许多合理的愤怒。

普林尼说：“普遍共识似乎是有史以来最令人失望的模型发布之一，实际上阻碍了正规研究人员为我们的集体进步贡献才华。”

Anthropic 没有发现普遍的越狱案例

在《寓言5》发布期间，Anthropic表示他们运行了一个外部漏洞赏金计划，寻找越狱AI模型的方法。

“除了内部测试，我们还运行了外部的漏洞悬赏，测试超过1000小时，但没有产生任何通用越狱。”