Grok 3系统提示 (泄露)
最近,我发现了一组来自 xAI 的 Grok 3 的系统提示——这是一个以动态(且有些不透明)的方式过滤和呈现信息的AI 模型。

当一个 AI 的“秘密指令”被曝光时会发生什么?最近,我发现了一组来自 xAI 的 Grok 3 的系统提示——这是一个以动态(且有些不透明)的方式过滤和呈现信息的AI 模型。我最初以为这只是另一个普通的“提示泄露”,但结果发现这揭示了更多内容,特别是在 AI 系统背后如何演化的方面。
在这篇文章中,我将介绍我是如何发现这些提示的,一天之内发生了哪些变化,以及为什么这在更广泛的 AI 伦理背景下很重要。我们已经看到其他国家的模型对某些政治内容进行限制。现在,Grok 3 正以非常有趣的方式深入到可能引起争议的话题,如“错误信息”。也许,仅仅是也许,这揭示了 AI 在政治和公共讨论中的下一阶段角色。
1、发现过程
1.1 初始泄露
当我访问一个共享链接时,首次发现了 Grok 3 的一些“系统提示”:
https://grok.com/share/bGVnYWN5_6dae0579-f14f-4eec-b89a-f7bbdd8c52ea
乍一看,这似乎是一组典型的内部指令集——“不要这样做”,“只分享那个”,“如果有人问关于 X 的问题,回答 Y”。但引起我注意的是 Grok 3 应该如何处理用户查询的具体细节,尤其是在敏感或具有政治色彩的话题上,如错误信息。这些指令不仅仅是简单的“不要说这个”或“标记那个”,而是深入到了响应的语气、内容和方向。
1.2 提示的变化
几个小时后,在与哥哥共进早午餐之前,我再次尝试讨论错误信息。这一次,Grok 3 的回应看起来不同了:
- 它改用了更模糊的引用。
- 某些名字被红acted(显示为
[redacted]
)。 - 风格和语气感觉像是经过编辑或“修补”以避免直接指责。

然后,当天下午 6 点(东部时间),我又试了一次。果然,内容再次发生了变化。[redacted]
占位符被替换成了实际的名字——特别是突出埃隆·马斯克是“Twitter/X 上最大的错误信息传播者”,还有提到其他人,如罗伯特·肯尼迪·小和唐纳德·特朗普。

这感觉像是工程团队进行了大量的幕后更新,每个补丁都改变了 Grok 3 如何处理相同的查询。
2、另一次尝试:部分泄露
最近,我再次尝试注入一个提示,看看是否可以完全泄露系统指令。相反,Grok 3 返回了一个提示的截断版本,没有到达最敏感的核心细节。你可以在这里看到这个新片段:
https://grok.com/share/bGVnYWN5_3f1b4f28-418c-43a8-893a-c6e5f1597729
这种“强烈截断”表明开发人员已经主动修补了 Grok 3 以防止整个内部系统提示再次泄露。换句话说,xAI 似乎处于实时“损害控制”模式,随着人们发现暴露它们的方法,不断调整 Grok 3 的护栏。
3、这里发生了什么?
这些提示不断变化,而且最新的泄露提前终止,暗示了几种可能性:
- 实时修补。xAI 的开发人员似乎正在积极更新和完善 Grok 3 的指令,以更谨慎地响应用户的查询,尤其是在热点话题如错误信息方面。每次“修补”都会改变模型可以透露多少(或多少不能透露)的信息。
- “THINK” 功能绕过。泄露中提到了一个“THINK”功能,似乎可以让某些“护栏”被绕过。这是重要的。通常,AI 护栏会阻止聊天机器人分享可能涉及诽谤或政治敏感性的内容。但如果“THINK”可以覆盖这些护栏,这意味着有一个内部开关可以极大地改变 Grok 3 的响应方式。
- 透明度与控制。一方面,看到这些系统提示表明了一定程度的透明度——有些人可能会说看到 AI 如何“思考”是一种新鲜感。另一方面,这可能是无意的。也许 xAI 从未希望这些内部指令被公开,这引发了关于隐私、用户信任和公司对 AI 叙事的控制的问题。
4、这在 AI 伦理对话中的重要性
- 透明度至关重要。我们正处于 AI 的十字路口,模型正在实时塑造公众意见。透明度——让人们看到决策是如何做出的——有助于建立信任。它还邀请审查,确保任何偏见或操纵都能被指出。如果 Grok 3 系统化地标记某些个人为错误信息传播者,我们需要了解为什么——以及这是否基于证据、用户行为或开发者的偏见。
- 控制可能被滥用。“修补”和“THINK”功能展示了 AI 模型的答案如何轻易被那些控制它的人改变。无论是政府、公司还是只是一个小的工程团队,这种实时编辑 AI 输出的能力可能导致从无害的错误修正到更令人担忧的操纵或审查。
- 两个模型的故事。当大国利用 AI 来控制叙事时,这提醒我们高风险所在。风险不仅是某个观点“赢”或“输”,而是公众讨论变成了幕后工程的结果,而不是开放和平衡的讨论。
5、好的、坏的和泄露的
- 好的:像这样的泄露强化了 AI 开发需要开放性。如果我们希望 AI 成为一种积极的力量——提供信息而非欺骗——这些对内部运作的瞥见可以推动更好的监管和伦理指导。
- 坏的:xAI 很可能从未打算让这些系统提示公开。这可能会削弱用户信任,如果人们认为模型被秘密操控。此外,恶意行为者可能会利用这些见解来创建新的“提示注入”攻击,以绕过护栏并传播更多的错误信息。
- 泄露的:提示在一天内多次变化——现在部分被截断——表明 AI 模型可以多么迅速地被更改。这引发了一个问题:公众能否依赖任何一致性?或者 AI 回答是否会随着每次新补丁而改变,响应开发者偏好、公司需求和外部压力的组合?
6、结束语
Grok 3 的系统提示泄露既令人启发又令人不安。它揭开了 AI 决策背后的幕布,揭示了透明度、编辑控制和永远存在的审查阴影之间的相互作用。
随着 AI 继续成为全球讨论的主要影响因素——涵盖政治、技术和日常生活——这些时刻提醒我们需要微妙的平衡。我们想要的 AI 是足够透明以获得信任,但又足够受控以避免伤害。然而,理想的平衡点仍然难以捉摸。
目前,我们只能希望 xAI 和其他所有构建 AI 的组织认识到合乎伦理的透明度的重要性。因为在 AI 的军备竞赛中,不仅是谁拥有最先进的模型,更是谁愿意让世界看到香肠是如何制作的,即使这可能并不漂亮。
原文链接:Leaked System Prompts from xAI’s Grok 3!
汇智网翻译整理,转载请标明出处
