Grok 3系统提示 (泄露)

最近，我发现了一组来自 xAI 的 Grok 3 的系统提示——这是一个以动态（且有些不透明）的方式过滤和呈现信息的AI 模型。

admin

Mar 2, 2025 • 8 min read

当一个 AI 的“秘密指令”被曝光时会发生什么？最近，我发现了一组来自 xAI 的 Grok 3 的系统提示——这是一个以动态（且有些不透明）的方式过滤和呈现信息的AI 模型。我最初以为这只是另一个普通的“提示泄露”，但结果发现这揭示了更多内容，特别是在 AI 系统背后如何演化的方面。

在这篇文章中，我将介绍我是如何发现这些提示的，一天之内发生了哪些变化，以及为什么这在更广泛的 AI 伦理背景下很重要。我们已经看到其他国家的模型对某些政治内容进行限制。现在，Grok 3 正以非常有趣的方式深入到可能引起争议的话题，如“错误信息”。也许，仅仅是也许，这揭示了 AI 在政治和公共讨论中的下一阶段角色。

1、发现过程

1.1 初始泄露

当我访问一个共享链接时，首次发现了 Grok 3 的一些“系统提示”：

https://grok.com/share/bGVnYWN5_6dae0579-f14f-4eec-b89a-f7bbdd8c52ea

乍一看，这似乎是一组典型的内部指令集——“不要这样做”，“只分享那个”，“如果有人问关于 X 的问题，回答 Y”。但引起我注意的是 Grok 3 应该如何处理用户查询的具体细节，尤其是在敏感或具有政治色彩的话题上，如错误信息。这些指令不仅仅是简单的“不要说这个”或“标记那个”，而是深入到了响应的语气、内容和方向。

1.2 提示的变化

几个小时后，在与哥哥共进早午餐之前，我再次尝试讨论错误信息。这一次，Grok 3 的回应看起来不同了：

它改用了更模糊的引用。
某些名字被红acted（显示为 [redacted]）。
风格和语气感觉像是经过编辑或“修补”以避免直接指责。

然后，当天下午 6 点（东部时间），我又试了一次。果然，内容再次发生了变化。[redacted] 占位符被替换成了实际的名字——特别是突出埃隆·马斯克是“Twitter/X 上最大的错误信息传播者”，还有提到其他人，如罗伯特·肯尼迪·小和唐纳德·特朗普。

这感觉像是工程团队进行了大量的幕后更新，每个补丁都改变了 Grok 3 如何处理相同的查询。

2、另一次尝试：部分泄露

最近，我再次尝试注入一个提示，看看是否可以完全泄露系统指令。相反，Grok 3 返回了一个提示的截断版本，没有到达最敏感的核心细节。你可以在这里看到这个新片段：

https://grok.com/share/bGVnYWN5_3f1b4f28-418c-43a8-893a-c6e5f1597729

这种“强烈截断”表明开发人员已经主动修补了 Grok 3 以防止整个内部系统提示再次泄露。换句话说，xAI 似乎处于实时“损害控制”模式，随着人们发现暴露它们的方法，不断调整 Grok 3 的护栏。

3、这里发生了什么？

这些提示不断变化，而且最新的泄露提前终止，暗示了几种可能性：

实时修补。xAI 的开发人员似乎正在积极更新和完善 Grok 3 的指令，以更谨慎地响应用户的查询，尤其是在热点话题如错误信息方面。每次“修补”都会改变模型可以透露多少（或多少不能透露）的信息。
“THINK” 功能绕过。泄露中提到了一个“THINK”功能，似乎可以让某些“护栏”被绕过。这是重要的。通常，AI 护栏会阻止聊天机器人分享可能涉及诽谤或政治敏感性的内容。但如果“THINK”可以覆盖这些护栏，这意味着有一个内部开关可以极大地改变 Grok 3 的响应方式。
透明度与控制。一方面，看到这些系统提示表明了一定程度的透明度——有些人可能会说看到 AI 如何“思考”是一种新鲜感。另一方面，这可能是无意的。也许 xAI 从未希望这些内部指令被公开，这引发了关于隐私、用户信任和公司对 AI 叙事的控制的问题。

4、这在 AI 伦理对话中的重要性

透明度至关重要。我们正处于 AI 的十字路口，模型正在实时塑造公众意见。透明度——让人们看到决策是如何做出的——有助于建立信任。它还邀请审查，确保任何偏见或操纵都能被指出。如果 Grok 3 系统化地标记某些个人为错误信息传播者，我们需要了解为什么——以及这是否基于证据、用户行为或开发者的偏见。
控制可能被滥用。“修补”和“THINK”功能展示了 AI 模型的答案如何轻易被那些控制它的人改变。无论是政府、公司还是只是一个小的工程团队，这种实时编辑 AI 输出的能力可能导致从无害的错误修正到更令人担忧的操纵或审查。
两个模型的故事。当大国利用 AI 来控制叙事时，这提醒我们高风险所在。风险不仅是某个观点“赢”或“输”，而是公众讨论变成了幕后工程的结果，而不是开放和平衡的讨论。

5、好的、坏的和泄露的

好的：像这样的泄露强化了 AI 开发需要开放性。如果我们希望 AI 成为一种积极的力量——提供信息而非欺骗——这些对内部运作的瞥见可以推动更好的监管和伦理指导。
坏的：xAI 很可能从未打算让这些系统提示公开。这可能会削弱用户信任，如果人们认为模型被秘密操控。此外，恶意行为者可能会利用这些见解来创建新的“提示注入”攻击，以绕过护栏并传播更多的错误信息。
泄露的：提示在一天内多次变化——现在部分被截断——表明 AI 模型可以多么迅速地被更改。这引发了一个问题：公众能否依赖任何一致性？或者 AI 回答是否会随着每次新补丁而改变，响应开发者偏好、公司需求和外部压力的组合？

6、结束语

Grok 3 的系统提示泄露既令人启发又令人不安。它揭开了 AI 决策背后的幕布，揭示了透明度、编辑控制和永远存在的审查阴影之间的相互作用。

随着 AI 继续成为全球讨论的主要影响因素——涵盖政治、技术和日常生活——这些时刻提醒我们需要微妙的平衡。我们想要的 AI 是足够透明以获得信任，但又足够受控以避免伤害。然而，理想的平衡点仍然难以捉摸。

目前，我们只能希望 xAI 和其他所有构建 AI 的组织认识到合乎伦理的透明度的重要性。因为在 AI 的军备竞赛中，不仅是谁拥有最先进的模型，更是谁愿意让世界看到香肠是如何制作的，即使这可能并不漂亮。

原文链接：Leaked System Prompts from xAI’s Grok 3!

汇智网翻译整理，转载请标明出处