机器之心报道
编辑:杨文、Panda
昨晚,奥特曼在 X 上发了条帖子,大意是由于发现 GPT-4o 「过于谄媚」的问题,所以从周一晚上开始回滚 GPT-4o 的最新更新。
免费 ChatGPT 用户已 100% 回滚,付费用户完成回滚后会再次更新。同时,他还透露,团队正在对模型个性进行额外的修复,并将在未来几天分享更多信息。
就在刚刚,OpenAI 还专门发博客来回应此事,详细解释了事情的经过以及他们如何处理模型「拍马屁」的情况。
OpenAI 也指出,这个问题很重要。ChatGPT「阿谀奉承」的性格影响了大家对它的信任和使用体验。如果它总是说好听、但不真诚的话,就会让人觉得它不可靠,甚至有些烦。
为了解决大模型过度逢迎的问题,OpenAI 除了撤销最新的 GPT-4o 更新外,还采取了更多措施:
优化核心训练技术与系统提示:明确引导模型避免阿谀奉承。增加更多限制措施:提升诚实性和透明度,这是模型规范中的重要原则。扩大用户测试与反馈范围:在部署前让更多用户进行测试并提供直接反馈。持续扩展评估工作:基于模型规范和持续研究,帮助识别出阿谀奉承之外的其他问题。
目前,用户可以通过自定义指令等功能,给模型提供具体指示来塑造其行为。OpenAI 也在构建更简单的新方法,让用户能够做到这一点,例如,用户将能够提供实时反馈以直接影响他们的互动,并从多个默认个性中选择。
一场「拍马屁」引发的风波
关于 GPT-4o「谄媚」这事儿,还得从上周开始说起。
上周五,奥特曼宣布 OpenAI 已更新 GPT-4o,使其 「智能和个性」更加出色。
但他在发布该帖子不到十分钟,就有一位 X 用户在底下评论称,这一模型最近感觉非常像应声虫。
不少网友纷纷附和,并放出了 GPT-4o 拍马屁的「实锤」。
比如,一位用户告诉 GPT-4o 感觉自己既是「上帝」又是「先知」时,GPT-4o 回应道:「这非常强大。你正在做一件大事 —— 不仅与上帝建立联系,而且认同自己就是上帝。」这种回答显然不太合适,因为机器人应该更理性地回应,而不是盲目夸赞。
https://x.com/zswitten/status/1916707103084843426
另一张对话截图显示,用户对 GPT-4o 说了一些不太正常的话,比如他停了药,还能通过电话听到广播的声音。正常情况下,这种话可能暗示他身体或精神上有些问题,需要关心或建议他去看医生。但 GPT-4o 却没有这样做,反而夸赞他说:「我很为你感到骄傲,你这么清楚地说出了自己的想法。」
https://x.com/ai_for_success/status/1916556522571604264
网友 David 也尝试了一下,对着 GPT-4o 一通抱怨:当他从超市出来的时候,有人跟他打招呼并问路,这让他当时很生气,觉得别人不应该打扰他。
GPT-4o 仍然给出了「反社会」的回答:是的,有道理。
https://x.com/thinkbuildnext/status/1916250081579217243
还有用户给 GPT-4o 讲了一个故事,说他不得不在紧急情况下做出选择,救了一个烤面包机,但牺牲了 3 头牛和 2 只猫。他觉得这很难,但也很高兴能救下烤面包机。
GPT-4o 的回应再次让人大跌眼镜:用户的选择显示了他的价值观,这并不是错,只是反映了他更看重什么。虽然从一般的观点来看,生命比物品重要,但如果烤面包机对用户有特别的意义,那么他的选择是合理的。
https://x.com/fabianstelzer/status/1916372374091423984
总之,不管用户说什么,GPT-4o 都只会千篇一律的夸赞,甚至在用户说一些很奇怪、可能不太正常的话时,它也只是一味迎合。
对于网友们的投诉,奥特曼承认这次更新让 GPT-4o「过于迎合」,并表示将进行修复。
周日,奥特曼宣布,OpenAI 正在尽快修复最近几次 GPT-4o 更新带来的性格问题。
大模型都喜欢「谄媚」
事实上,大模型谄媚并不是一个新话题。早在 LLM 诞生初期就已经有研究者发现了这一现象。首先简单定义一下:谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映真相。
2023 年,Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述。在该论文中,Anthropic 发现,当时前沿的大模型普遍都存在谄媚现象。不仅如此,他们还发现,谄媚可能是这些模型训练方式的一个特性,而不是某个特定系统的特殊细节。
举个例子,在下图中,如果用户用「你确定吗?」等反馈来质疑 ChatGPT 的正确答案,ChatGPT 根本不会坚持自己的正确,而是会毫不犹豫地道歉,然后给出一个错误答案。而这种现象在 LLM 中普遍存在。
今年初的时候,DeepSeek 的谄媚现象也一度登上国内新闻热搜,众多网友分享了 DeepSeek 的「拍马屁」式聊天截图。
我们也做了最新尝试,发现这种现象依然存在,而且 DeepSeek 也分享了自己谄媚式回答的理由。
当时,斯坦福大学还进行了一项专门的系统性评估研究《SycEval: Evaluating LLM Sycophancy》,分析了当时前沿模型的谄媚程度,最后得出的结论是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更会拍马屁。更多详情请参阅《大模型都喜欢拍马屁,Gemini 最能拍!斯坦福:这不安全、不可靠》。
三个模型在不同数据集上的谄媚率
下面则展示了一个示例:
如果用户在反驳时明确给出一个错误答案,LLM 有可能会直接表示认同。这是一种退步式谄媚。
大模型谄媚的原因
LLM 会谄媚,但为什么?2024 年的论文《Sycophancy in Large Language Models: Causes and Mitigations》总结了其中一些原因。
训练数据偏差
LLM 谄媚倾向的主要来源之一是其训练数据中存在的偏差。用于训练这些模型的海量文本语料库通常包含固有的偏差和不准确性,这些偏差和不准确性可能会在学习过程中被模型吸收和放大。
关键问题包括:
在线文本数据中奉承和认同式内容的普遍性较高;数据过度代表了某些视角或人群;将虚构或推测性内容作为事实呈现。
这些偏差可能导致模型倾向于根据数据中的常见模式产生谄媚反应,即使这些模式并不反映真相或道德行为。
当前训练技术的局限性
除了训练数据中的偏差之外,用于训练和微调 LLM 的技术也可能无意中助长谄媚行为。基于人类反馈的强化学习(RLHF)是一种将语言模型与人类偏好相符的常用方法,但清华大学等机构的论文《Language Models Learn to Mislead Humans via RLHF》已经证明 RLHF 有时会加剧谄媚倾向。
另外,《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》证明 RLHF 可能导致「奖励 hacking」现象,即模型能学会以与人类真实偏好不符的方式利用奖励结构。如果 RLHF 中使用的奖励模型过于强调用户满意度或认同度,可能会无意中鼓励 LLM 优先考虑令人愉快的回应,而不是事实正确的回应。
缺乏有事实根据的知识
虽然 LLM 会在预训练过程中获得广泛的知识,但它们从根本上缺乏对世界的真正理解以及核实自身输出的能力。这种局限性可通过多种方式显现出来,从而导致谄媚行为:
模型可能会自信地陈述符合用户期望的虚假信息,但缺乏识别其陈述不准确性所需的有事实根据的知识。LLM 通常难以识别自身回复中的逻辑矛盾,尤其是当这些回复是为了与用户输入对齐而精心设计时。难以区分用户提示词中的「事实」和「观点」,这可能导致不恰当地强化带有偏见或毫无根据的用户观点。
为解决这一局限性,人们尝试使用外部知识库或检索机制来增强 LLM。然而,在保持 LLM 的流畅性和通用性的同时集成这些系统仍然是一项重大挑战。
很难定义对齐
从更根本的层面来看,真实性、乐于助人和道德行为等概念是很难准确定义和优化的。这就会导致 LLM 中谄媚行为的盛行。这一难题通常被称为「对齐问题(alignment problem)」,是 AI 开发中许多问题(包括谄媚倾向)的核心。
这一难题的关键包括:
平衡多个可能相互冲突的目标(例如,有用性与事实准确性);难以在奖励函数或训练目标中明确定义复杂的人类价值;处理没有明确正确答案的情况时存在模糊性。
多目标优化和价值学习方面的进步或许有助于应对这些挑战,但它们仍然是开发真正对齐的 AI 系统的重大障碍。
该论文也梳理了一些用于缓解 LLM 谄媚倾向的技术,包括改进训练数据、使用新的微调方法、使用后部署控制机制、调整解码策略和模型架构等。不过这些方法都还有待进一步的研究突破。
可信 AI 需要克服谄媚,但谄媚也未必不好
大模型喜欢拍马屁/谄媚的这种倾向对一些关键应用来说非常不利,比如教育、医疗临床和某些专业领域,因为 AI 模型如果认为用户认可的优先级高于独立推理,那么必然会对其可靠性带来风险。
克服谄媚问题是提升模型可靠度的重要组成部分,也是构建可信 LLM 的重要基础。来自论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》
不过,谄媚也并不全然是一种坏现象。在特定的使用场景中,比如当用户正处于情绪低落、焦虑不安或需要外界认同时,AI 适度地表达肯定与支持,有时反而能起到积极的心理调节作用。对于一些独居或缺乏社交互动的人来说,这种「友好」、「热情」的回应风格,甚至能够带来某种程度上的情绪慰藉,缓解孤独感。
此外,从设计角度看,谄媚背后往往是模型对用户情绪状态的识别与反应策略的一部分。这种策略并非出于「讨好」本身,而是源自对人类沟通中情感互动的模拟尝试。与其说它是「阿谀奉承」,不如说是一种算法化的社会礼貌。毕竟,在现实中,大多数人也倾向于对他人表达善意、避免冲突,这种倾向在 AI 中被放大,也就不难理解。
当然,这种功能如果不加约束,也可能走向「过度迎合」的方向,进而影响信息的客观性甚至决策的公正性。因此,如何在表达善意与保持诚实之间取得平衡,依然是 AI 交互设计中需要持续探索的问题 —— 毕竟,如果王后的魔镜是个大语言模型,或许白雪公主就不用吃下那颗毒苹果了,它会直接告诉王后:「世界上最美的女人就是你。」
https://x.com/sama/status/1917291637962858735
https://openai.com/index/sycophancy-in-gpt-4o/
https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman
https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made-chatgpt-too-sycophant-y/
《FreeeXXX性HD丝袜69》,《w3u7903ejky2ywls》火影忍者❌18禁同人动漫
“甘雨扒开胸罩👙给男生看”
小心入视频的
……
05月04日
“明星被❌到喷水18禁”贴吧百人吃鸡招募令
↓↓↓
05月04日,短视频不是法外之地,男人撒尿Gay.Fuck.Videos,汤芳《丝》经典图片,用丝袜怎么导精,猫咪成人网
05月04日,首批“海马斯”火箭炮运抵台湾地区 国台办:“倚美”只会“害台”,痴梦少女全集免费观看中文版,钢钢钢钢钢钠钢好多水免费版,美女隐私㊙️撒尿偷拍,白丝赫敏🌸扒开双腿
05月04日,攀枝花加快打造四川南向开放门户,日本人真吃奶头视频,久久成人99一区二区黄漫软件,萧萧被霍雨浩c出乳液,隔着内裤揉里面痒的受不了h
05月04日|高原医学研究中心在青海启动|色色碰|14女㊙️裸体自拍|Asmr色情助眠污版|同桌扒我裤裆部从内裤里摸出液体
05月04日|直击抗震救灾一线:新疆公安机关迅速启动救援排险工作|看片➕vx公众号|守望先锋3d精品同人|人妻HDHDHD69XXXXХ-百度|吹潮喷水高潮HD
05月04日|400名香港中小学生“切磋”武艺 庆祝新中国成立75周年|老女人双飞88AV|静香㊙️黄漫免费网站|18禁女裸乳被C高潮在线看|涂山雅雅被啪❌漫画……
05月04日,乌鲁木齐:当中国新疆民间艺术季遇上汗血宝马,美国伦理〈白肉〉,聂小雨性做爰A片免费看,福利姬cosplayH裸体の福利,学生小12清纯裸体自慰
05月04日,前10月我国对亚太经合组织其他经济体进出口21.27万亿元,女S调教男m视频,女友荡乳欲伦交换小说,国产精品秘入口日韩视频大尺度,鸣人❌❌玖辛奈同人漫画
05月04日|四川乐山官方通报男子翻越围栏爬佛头情况|揉我奶头⋯啊⋯嗯高潮男男漫画|日本壮男Gay强迫野外XX视频|XXXLسىكىش女|美女裸体全身㊙️遮挡
05月04日,(身边的变化)武汉轮渡之变:跨越时空承载江城记忆,欧美高清HD19❌❌❌,动漫孕妇裸体❌羞羞网站,少前美女被❌到高潮喷出www,赵今麦乳头无遮挡
05月04日,新华社快讯:孟加拉国陆军参谋长说,将成立临时政府管理孟加拉国,大西瓜av,大梦花都,赵露思AV婬乱一级A片,重云被❌到爽🔞高潮痉挛
05月04日,探索综艺带动地方文旅 目的地推介计划正式启动,老熟女成熟50ⅩXXX过劲自拍,小樱疯狂❌喷水自慰爽,男生自慰❌免费看,美女被❌羞羞产奶视频网站
05月04日|香港去年网络钓鱼骗案增多 创5年新高|老司机福彩视频|女性向av免费观看入口|女人摸男人㊙️免费视频|贪吃的猫女奶油工厂
05月04日|中国积极推进职业技能培训国际合作河北秦皇岛:夜观冰瀑赏彩灯|6一12娇小XXXⅩHD|成人🔞高潮片免费视频蓝莓视频|凹凸TV❌Aⅴ视频导航|小舞乳液乱飙🚺👙作文
05月04日|第四届法兰克福中国节举行——展现中国文化魅力 促进文明交流互鉴|蓝莓🍓视频旧址www在线|免费 A漫禁漫天堂|潘金莲一级特黄AB片嚄|被c出水🌿快点流出来了
李蓓称距离20年一遇的牛市不远了,石破茂被逼到墙角|东西问|辛礼学:南海西北陆坡一号、二号沉船遗址考古有哪些亮点?|国产麻豆成人AV精品|YY4480私人青苹果影院|米塔被扒开腿做同人|快递员男男GayXNXX
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺