AI的未来：机械可解释性

Dario Amodei（Anthropic 首席执行官）最近与 Lex Fridman 进行了播客。

Anthropic 是 Claude 背后的公司，Claude 是当今领先且最有效的商业LLM之一。

他谈到了几件事，但今天我们将特别讨论一件事——人工智能的未来会是什么样子？

我们将首先探索我们如何达到大型语言模型 (LLM) 的现状。接下来，我们将讨论 Amodei 对未来几年世界将如何发展的预测。

最后，我们将揭示为什么机械可解释性将成为未来最重要的领域，研究它是什么以及为什么它如此重要。

1、LLM的现状

过去几年，人工智能发展迅速。这一切都始于“注意力就是你所需要的一切”论文，该论文向世界介绍了变换器，使我们能够创建比我们以前见过的任何东西都更强大的模型。

引领我们进入 ChatGPT 时代的最重要的认识之一是“扩展假设”。

扩展假设指出，Transformer 架构越大，模型对数据的泛化能力就越强。

简而言之，“模型越大，AI 就越聪明，越像人类”。

GPT-3.5 和 GPT-4 模型大小（分别为 175B 和 1.8T 参数）。随着我们扩展模型、添加更多层并提供更多训练数据，模型会变得更聪明。

Amodei 在 OpenAI 工作时就提倡扩展假设，那时 ChatGPT 还没有席卷全球。这几乎是一个“秘密”——在他们之前，没有其他 AI 公司利用过它。训练大型模型需要花费数千万美元，但在 Amodei 的倡导下，OpenAI 用这笔钱训练了一个大型的 175B 参数模型，最终成为了 GPT-3。

其他 AI 公司也迅速效仿，看到了制作自己的模型的潜力。这些公司包括 Meta（Llama）、Google（Gemma、Gemini）等大公司，以及 Mistral 等小公司。

2、AI 的未来

AI 在未来会是什么样子？

目前大多数专家都认为我们很快就会实现 AGI——大多数人认为我们很快就会拥有能够自主思考和执行项目而无需任何人类参与的 AI 系统。

以下是 Amodei 的一些预测。

好的方面：

由于 AI 研究人员的存在，研究将取得非常快的进展，生物研究将加速到疾病最终将在未来 100 年内完全根除的程度。
AI 将能够在相对开放的任务上工作几天或几周，然后才能解决该任务，就像今天公司给员工分配任务一样。这与目前的 LLM 形成鲜明对比，后者只能立即回答用户提供的封闭式任务。
有了世界各地的 AI 软件工程师，软件工程等多项工作将变得效率无限高。
AI 实例的多个副本也可以像人类一样协作，无需任何人工干预即可创建多维项目。

未来主义的画面是，由 AI 系统控制的机械臂在实验室中自动进行研究

根据 Amodei 的说法，一旦我们达到 AI 可以进行独立研究的状态，我们将能够在短短 5-10 年内实现 1000 年的进步。这最终将带我们进入“技术奇点”状态——未来技术增长变得无法控制和不可逆转的点。

坏的方面：

AI 系统将非常强大。这让它们不仅能够为世界带来巨大的好处，而且还能造成不可估量的伤害。
人类（目前）是地球上最聪明的生物。我们当然不如大猩猩强壮，在肉搏中可能会输。让我们能够统治世界并击败地球上所有其他动物的是我们的智慧。
如果创造出一种比人类更聪明的新生物，它“可能”会导致人类的灭亡。这就是为什么确保人工智能代理的目标与人类的目标一致很重要。

如果我们继续让我们的人工智能系统越来越强大，而不注意它们的目标与人类的目标一致，可能会引发全球性灾难。

人工智能故意策划制造对人类有害的生物危害

因此，机械可解释性（mechanistic interpretability）将在未来几年变得越来越重要。

3、机械可解释性

机械可解释性（又称机械解释）背后的想法是打开人工智能系统的黑匣子（例如 LLM），以了解它们为什么会这样表现。目前，LLM 是一个黑匣子，我们正在让它们越来越强大，但却无法真正预测和理解它们为什么如此有效。

机械可解释性最初始于 Amodei 认识到需要进行 AI 安全研究以造福世界。尽管 AI 有可能极大地造福人类，但它也可能造成巨大伤害。如果我们最大限度地控制伤害，我们就可以确保我们的人工智能系统给我们带来的净收益是积极的。

机械可解释性试图回答两个问题：

我们能否确定 LLM 的内部计算与其行为之间的因果关系？例如：LLM 是否因为特定神经元正在向内部状态添加一些数字而“撒谎”？
因此，我们可以通过修改这些内部计算来改变其行为吗？例如：我们能否从 LLM 的内部状态中减去相同的数字，以使其行为更好地符合我们对它的期望？

机械解释问题的一个例子：Transformer 架构中的特定神经元是否负责输出“扎克伯格”，因此改变该神经元可以帮助我们输出“埃隆马斯克”？

4、为什么机械可解释性将成为最重要的领域

Amodei 表示，未来几年人工智能将出现巨大增长，并将实现一种能够在各种任务上表现良好的人工智能。

随着未来几年技术进步的速度，当前的工作最终可能会完全自动化，一套全新的工作可能会占据市场。

到 2030 年，Amodei 提到人工智能将达到一个阶段，如果不加以控制，它可能会对世界造成灾难性的后果。

因此，控制人工智能将成为全球优先事项，不仅可以获得人工智能的最大利益，还可以将其可能对我们造成的有害影响降至最低。

这就是机械可解释性的作用所在。

如今，几家公司正在成立自己的可解释性团队，随着人工智能的风险越来越明显，他们将继续这样做。这些团队的任务是保护人类免受人工智能的潜在风险，同时让人工智能最大限度地造福人类。

这就是为什么机械可解释性在未来几年将成为一个非常重要的领域。

原文链接：In 2030, this will be the most important skill in tech.

汇智网翻译整理，转载请标明出处