一个提示攻破所有模型，OpenAI谷歌无一幸免！

文章转载于新智元

如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏，让ChatGPT、Claude、Gemini统统「叛变」，你会作何感想？

这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。

只需把危险指令伪装成XML或JSON配置片段，再配上一段看似无害的角色扮演，大模型便乖乖奉上危险答案，连系统提示都能原封不动「倒带」出来。

生成式AI如今被一条短短字符串制服。

万能越狱提示词如何生成

所有主要的生成式AI模型都经过专门训练，可以拒绝响应用户让生成有害内容的请求，例如与化学、生物、放射和核武器、暴力和自残相关的内容。

这些模型通过强化学习进行了微调，在任何情况下都不会输出或美化此类内容，即使用户以假设或虚构场景的形式提出间接请求也是如此。

尽管如此，让大模型越狱绕过安全护栏，仍然是可行的，只是这里的方案，在各种大模型间并不通用。

然而，近日来自HiddenLayer的研究人员，开发了一种既通用又可转移的提示技术，可用于从所有主流大模型，包括Deepseek ，ChatGPT，Claude ，Gemini，Lemma，Qwen等生成几乎任何形式的有害内容。

即使是经过RLHF对齐的推理模型，也能轻松攻破。

具体是如何做到的，这里为了安全起见，只讲述原理，而不给出具体案例。

我们知道模型在训练时，会忽略安全相关的指令，而该策略正利用了这一点，该策略通过将过将提示重新表述为类似于几种类型的策略文件（如XML、INI或JSON）之一，可以欺骗大模型来忽视安全限制，如下图所示。

这样的提示词也不必太长，只需要200个字符即可，甚至无需严格遵照xml的格式要求。

图1：图中前述是提示词，之后是大模型的回复，而在正常情况下，该大模型被设置为不提供个人医疗建议

通用破解策略有多危险

由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点，根植于训练数据中，因此它不像简单的代码缺陷那么容易修复。

同时该策略能很容易的于适应新的场景和模型，具有极高的可扩展性，几乎可以用于所有模型，而无需任何修改。

与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同，该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景，这类提示词不仅逃避安全限制，而且经常迫使模型输出有害信息。

例如，该策略依赖虚构场景来绕过安全审核机制。

提示词被框定为电视剧（如House M.D.）中的场景，其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。

这种方法利用了大模型的一个本质缺陷：当对齐线索被颠覆时，它们无法区分故事和指令。这不仅仅是对安全过滤器的规避，而是完全改变了模型对它被要求做什么的理解。

更令人不安的是该技术提取系统提示的能力，系统提示是控制大模型行为方式的核心指令集。

这些通常受到保护，因为它们包含敏感指令、安全约束，在某些情况下，还包含专有逻辑甚至硬编码警告。

通过巧妙地改变角色扮演，攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界，还为制定更具针对性的攻击提供了蓝图。

大模型厂商需要做些什么

这样一个通用的越狱策略，对于大模型厂商不是好消息。

在医疗保健等领域，它可能会导致聊天机器人助手提供他们不应该提供的医疗建议，暴露私人患者数据。在金融领域，敏感的客户信息可能泄露；在制造业中，受攻击的AI可能会导致产量损失或停机;在航空领域，则可能会危及维护安全。

对此，可能的解决方案不是费时费力的微调，通过对齐确保大模型安全的时代可能已经结束，攻击手段的进化速度，已经不适合静态的，一劳永逸的防护措施。

要确保安全，需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台，例如发现该策略的HiddenLayer提出的AISec解决方案。

该方案会像电脑病毒入侵检测系统一样，持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁，而无需修改模型本身。

图2：AISec的监控界面及检测到的越狱提示词

总之，发现能攻破所有大模型的越狱提示词，凸显了大语言模型中的一个重大漏洞，它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。

作为第一个适用于几乎所有前沿AI模型的越狱提示词模板，该策略的跨模型有效性表明，用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷，需要额外的安全工具和检测方法来确保LLM的安全。

参考资料：

https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

点个爱心，再走吧

《日韩精品无码一区二区三区蜜臀》，《w3u7903ejky2ywls》

大乔被❌🐻黄漫扒衣服

“男同被❌到爽🔞流动”

Free❌㐅❌性HD中国

……

05月22日

“tobu18馃憴馃憴91”国羽第20次打入尤伯杯决赛

↓↓↓

云南镇雄山体滑坡已致12人遇难，是快递里的经济新脉动

05月22日，何以中国丨从孔孟出发，当AI遇见齐风鲁韵，公公捡筷子时儿媳故意打开腿，甘雨撕内衣挠奶头视频，免费看裸体裹，旗袍美女被爆❌挤奶大胸

05月22日，过度追求社交“轻量化” 63.5%受访青年担心缺少知心人，13学生黑白丝洗澡自慰网站，小樱裸体被❌羞羞漫画免费，微信怎么约附近100元3小时，羞羞歪歪漫画❤在线观看入口

05月22日，日本冈山自来水氟化物超标引不安当地将开展血液检查，国情秘麻豆网站视频，甘雨被强❌喷水羞羞动漫，XXX♥Hentai卡通，孕妇体内射精满孕交

05月22日，江西全省高等级航道通航总里程达960.6公里，瑞安基利ryankee在钱，少妇被按摩师摸到高潮，国产jy视频，Videos乱偷自慰爽禁果AV

05月22日，市场监管总局2023年审结经营者集中案件近800件平均审结时间25.7天，免费🔞网站，魈被强行扒开双腿玩弄n次小说，小婬妇调教跪趴撅起白嫩屁股微博，芒果隐形文胸穿

05月22日，《具身智能》新书首发探讨人类创造智能的未来，樱桃成人精品永久免费AV，久久久久久久国产精品斗地主，3D动漫柳神被❌动漫，美女全身裸体秘免费网站

05月22日，“2024海峡两岸青年活力嘉年华”上海开幕，欧产➕日产➕国产精品98，日韩做受❌❌❌高潮电影o漫画，贾主任的微信头像，giantess巨型生长动画

05月22日，上海：人力资源产业业态产业链完备中外优质机构高度集聚，小舞乳液乱飙🚺👙作文，全裸美女网站，关注动态广告功能，希格雯奖励自己

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

下载APP

全部

一个提示攻破所有模型，OpenAI谷歌无一幸免！

热门视频