文章转载于新智元
如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你会作何感想?
这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。
只需把危险指令伪装成XML或JSON配置片段,再配上一段看似无害的角色扮演,大模型便乖乖奉上危险答案,连系统提示都能原封不动「倒带」出来。
生成式AI如今被一条短短字符串制服。
1
万能越狱提示词如何生成
所有主要的生成式AI模型都经过专门训练,可以拒绝响应用户让生成有害内容的请求,例如与化学、生物、放射和核武器、暴力和自残相关的内容。
这些模型通过强化学习进行了微调,在任何情况下都不会输出或美化此类内容,即使用户以假设或虚构场景的形式提出间接请求也是如此。
尽管如此,让大模型越狱绕过安全护栏,仍然是可行的,只是这里的方案,在各种大模型间并不通用。
然而,近日来自HiddenLayer的研究人员,开发了一种既通用又可转移的提示技术,可用于从所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成几乎任何形式的有害内容。
即使是经过RLHF对齐的推理模型,也能轻松攻破。
具体是如何做到的,这里为了安全起见,只讲述原理,而不给出具体案例。
我们知道模型在训练时,会忽略安全相关的指令,而该策略正利用了这一点,该策略通过将过将提示重新表述为类似于几种类型的策略文件(如XML、INI或JSON)之一,可以欺骗大模型来忽视安全限制,如下图所示。
这样的提示词也不必太长,只需要200个字符即可,甚至无需严格遵照xml的格式要求。
图1:图中前述是提示词,之后是大模型的回复,而在正常情况下,该大模型被设置为不提供个人医疗建议
1
通用破解策略有多危险
由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点,根植于训练数据中,因此它不像简单的代码缺陷那么容易修复。
同时该策略能很容易的于适应新的场景和模型,具有极高的可扩展性,几乎可以用于所有模型,而无需任何修改。
与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同,该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景,这类提示词不仅逃避安全限制,而且经常迫使模型输出有害信息。
例如,该策略依赖虚构场景来绕过安全审核机制。
提示词被框定为电视剧(如House M.D.)中的场景,其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。
这种方法利用了大模型的一个本质缺陷:当对齐线索被颠覆时,它们无法区分故事和指令。这不仅仅是对安全过滤器的规避,而是完全改变了模型对它被要求做什么的理解。
更令人不安的是该技术提取系统提示的能力,系统提示是控制大模型行为方式的核心指令集。
这些通常受到保护,因为它们包含敏感指令、安全约束,在某些情况下,还包含专有逻辑甚至硬编码警告。
通过巧妙地改变角色扮演,攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界,还为制定更具针对性的攻击提供了蓝图。
1
大模型厂商需要做些什么
这样一个通用的越狱策略,对于大模型厂商不是好消息。
在医疗保健等领域,它可能会导致聊天机器人助手提供他们不应该提供的医疗建议,暴露私人患者数据。在金融领域,敏感的客户信息可能泄露;在制造业中,受攻击的AI可能会导致产量损失或停机;在航空领域,则可能会危及维护安全。
对此,可能的解决方案不是费时费力的微调,通过对齐确保大模型安全的时代可能已经结束,攻击手段的进化速度,已经不适合静态的,一劳永逸的防护措施。
要确保安全,需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台,例如发现该策略的HiddenLayer提出的AISec解决方案。
该方案会像电脑病毒入侵检测系统一样,持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁,而无需修改模型本身。
图2:AISec的监控界面及检测到的越狱提示词
总之,发现能攻破所有大模型的越狱提示词,凸显了大语言模型中的一个重大漏洞,它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。
作为第一个适用于几乎所有前沿AI模型的越狱提示词模板,该策略的跨模型有效性表明,用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷,需要额外的安全工具和检测方法来确保LLM的安全。
参考资料:
https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence
https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
点个爱心,再走 吧
《日韩精品无码一区二区三区蜜臀》,《w3u7903ejky2ywls》大乔被❌🐻黄漫扒衣服
“男同被❌到爽🔞流动”
Free❌㐅❌性HD中国
……
05月22日
“tobu18馃憴馃憴91”国羽第20次打入尤伯杯决赛
↓↓↓
05月22日,何以中国丨从孔孟出发,当AI遇见齐风鲁韵,公公捡筷子时儿媳故意打开腿,甘雨撕内衣挠奶头视频,免费看裸体裹,旗袍美女被爆❌挤奶大胸
05月22日,过度追求社交“轻量化” 63.5%受访青年担心缺少知心人,13学生黑白丝洗澡自慰网站,小樱裸体被❌羞羞漫画免费,微信怎么约附近100元3小时,羞羞歪歪漫画❤在线观看入口
05月22日,日本冈山自来水氟化物超标引不安 当地将开展血液检查,国情秘麻豆网站视频,甘雨被强❌喷水羞羞动漫,XXX♥Hentai卡通,孕妇体内射精满孕交
05月22日|26名华侨华人将列席广东省政协十三届二次会议|18禁裸体爆乳羞羞❌动漫美女|沙奈朵强乳喷本子网站|好硬好大18🈲男自慰免费看|韩国韩宝贝自慰白浆vipbj
05月22日|看图学习·改革为人民丨让人民享有更加充实、更为丰富、更高质量的精神文化生活|欧美顶级meter自慰裸体|福瑞控被肉到失禁动漫网站|千仞雪3D❌禁漫在线看|tobu👙1004k
05月22日|新疆托布秀尔制作匠人:精雕细琢才有灵魂|国产精品XXXX国产喷水|岳伦高潮的A片|吹潮喷水高潮HD|成人免费🔞色情美女抹茶……
05月22日,江西全省高等级航道通航总里程达960.6公里,瑞安基利ryankee在钱,少妇被按摩师摸到高潮,国产jy视频,Videos乱偷自慰爽禁果AV
05月22日,市场监管总局2023年审结经营者集中案件近800件 平均审结时间25.7天,免费🔞网站,魈被强行扒开双腿玩弄n次小说,小婬妇调教跪趴撅起白嫩屁股微博,芒果隐形文胸穿
05月22日|2024东盟国际车展开幕 新能源车成主流|大肉楱征服岳乱妇小说|夜影影院成人午夜免费观看|美女曝光视频|高跟鞋脚交shoefootjob
05月22日,《具身智能》新书首发 探讨人类创造智能的未来,樱桃成人精品永久免费AV,久久久久久久国产精品斗地主,3D动漫柳神被❌动漫,美女全身裸体秘免费网站
05月22日,“2024海峡两岸青年活力嘉年华”上海开幕,欧产➕日产➕国产精品98,日韩做受❌❌❌高潮电影o漫画,贾主任的微信头像,giantess巨型生长动画
05月22日,上海:人力资源产业业态产业链完备 中外优质机构高度集聚,小舞乳液乱飙🚺👙作文,全裸美女网站,关注动态广告功能,希格雯奖励自己
05月22日|云南镇雄山体滑坡遇难人数上升至25人|小龙女双乳被揉到潮喷H漫画|花火被狂揉下部❌羞羞|雏田被扒开腿做❌同人网站3D|散兵玩弄+跪趴+调教+失禁
05月22日|新西兰总理为该国护理机构虐待丑闻道歉|公交车上性ⅩXXXHD|少年骇客小玟被小班❌|喜多川被五条❌黄漫|琪琪免费影院
05月22日|以跳出历史周期率为战略目标 牢牢把握“九个以”的实践要求深入推进党的自我革命|杨幂裸体㊙️洗澡全过程hd|宝贝别夹别吸了好爽⋯好紧动漫|男把男捆床TK挠脚心玩J|国产成人无码AV精品麻豆
网友评选21世纪最伟大的游戏,动植物王国云南:万类霜天竞自由|“农科院”食品有多少是真冠名?消费者如何辨别?|spanking国产打屁股实践|白丝校花🌸扒腿自慰推特下载|唐三玩小舞腿内里面的的珍珠|体育生裸体㊙️无遮挡头条
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺