APPLICATION

AI的真正威力：智能机器

虽然每个人都继续专注于 AI 写论文和创作艺术，但真正的革命正在表面之下发生——在机器人技术中。智能机器已经进入工厂、杂货店、仓库、医院和家庭。

admin

Feb 12, 2025 • 12 min read

虽然每个人都继续专注于 AI 写论文和创作艺术，但真正的革命正在表面之下发生——在机器人技术中。人工智能机器已经进入工厂、杂货店、仓库、医院和家庭。

让机器人真正智能是 AI 的下一个主要前沿。这不仅仅是将LLM交给一组人形或狗形的螺丝和废金属——它涉及物理、感知、控制和决策，即使在看不见或不确定的条件下也是如此。

运动是人类认为理所当然的事情，但对于机器来说却异常复杂。与处理静态文本的 AI 模型不同，机器人必须实时运行，对动态世界的变化做出反应。多年来，我们一直让机器人在自己的房间或工厂中独自工作，但让机器人与人类一起工作或在不受控制的环境中工作要困难得多。它们必须首先通过传感器（LiDAR、摄像头和 IMU）感知环境，然后准确解释这些数据，通常在信息不完整时做出推断。感知的难度延伸到路线规划、物体检测和深度估计等基本任务，即使是很小的计算错误也可能造成灾难性的后果。

更不用说图像根本没有深度所需的信息，因为它是 3D 世界的 2D 投影。如果没有足够的线索，如阴影、纹理渐变、遮挡或立体视觉，就无法直接从单个图像推断出深度。随着深度神经网络的出现，让计算机以某种方式看待世界是一项艰巨的任务，研究人员花了几十年的时间才发现这一点。

一旦机器人建立了周围环境的模型，它就面临着控制的挑战——如何与世界互动。无论机器人是在组装微芯片还是移动仓库库存，精度和适应性都至关重要。然而，控制不仅仅是执行编程的动作；它需要对意外情况做出反应。物体会不可预测地滑动、变形或移动，迫使人工智能驱动的操纵模型实时调整。在复杂的环境中，运动规划变得越来越困难，因为机器人必须躲避移动的障碍物或与人类工人协调。与人类不同，机器人在泛化方面很吃力；一个被训练来处理咖啡杯的模型在面对酒杯或香蕉时可能会失败。迁移学习仍然是一个重大障碍，而知与行之间的差距仍然是当今机器人技术中最艰难的前沿之一。多年来，我们在某些特定领域开发了特别强大的模型，但仍然面临着集成和泛化的挑战。

除了抓取困难之外——接下来会发生什么？人类可以看一眼刀，根据情况立即知道它是用来切蔬菜、打开包裹还是涂抹黄油。然而，机器人需要明确的训练才能识别物体的功能以及如何在上下文中正确地与其交互。目前，多模态人工智能正被用于将物体识别与上下文配对，以便它们可以动态调整方法。然而，许多模型仍然依靠预编程或预训练的启发式方法运行。机器人感知的另一个基本问题不仅是识别物体，还包括语义理解——对它们的目的和交互动态的理解。

或者，在控制较少的环境中与人类一起工作时，如何使用该物体？如今，大多数人工智能机器人都是孤立运行的。无论是在配送仓库还是在自动驾驶测试轨道上，它们都针对受控环境进行了优化，以最大限度地减少人类的不可预测性。但要让机器人真正融入日常生活，它们不仅必须感知和行动，还必须实时解读人类的意图。例如，想象一个机器人在餐厅厨房工作。如果人类厨师伸手去拿机器人即将抓起的平底锅，机器人必须立即识别优先级的变化并改变路线。人工智能驱动的人形机器人必须在交流并不总是口头或清晰的环境中处理隐含的社会等级、基于手势的线索和语音语调。这不是一件容易的事。传统的基于规则的方法在这里失败了，因为它们缺乏适应性。相反，人们正在探索强化学习与人类反馈 (RLHF)，以帮助机器人更好地驾驭协作空间。

尽管面临这些挑战和更多挑战，人工智能正在将机器人技术推向一个新时代，机器正在学习在非结构化环境中运行环境中，灵活地操纵物体，并在不可预测的条件下做出瞬间决策。在人形机器人领域，强化学习正在帮助特斯拉的 Optimus 和 Figure AI 的机器人改进其运动和操纵能力。这个想法是，机器人将被放进世界，根据奖励和惩罚自行学习物理、运动和控制。换句话说，就像人类儿童学习与世界互动的方式一样。

Google DeepMind 的 RT-1 展示了单个模型如何推广到多个机器人任务，而 OpenAI 的 Dactyl 和 Google 的 Robotics Transformer-2 (RT-2) 已经表明大型语言模型可以解释指令并将其转化为物理动作。自动驾驶汽车也在快速发展。 Waymo 和 Tesla 等公司正在从基于规则的自主转向基于深度学习的决策，让自动驾驶汽车能够动态适应环境。四足机器人（类似狗）Spot、Unitree 和 ANYmal 正用于工业检查、灾难响应，甚至军事应用，在对人类来说过于危险的环境中导航。

换句话说，当前面临的问题之一是，我们需要弥合弱泛化和严格特异性之间的差距——这是机器学习中平衡过度拟合和欠拟合的经典挑战。

如果你还记得一些第一批主流 LLM 在数学和时事方面有多糟糕，那么我们需要的突破就是实现代码执行和搜索增强。当它们通过特定子程序或任务获得足够的信息时，它们就能够更有效地进行概括，并从孤立的、预先训练的测试用例转变为更自主的测试用例。

人工智能正在发生重大转变——不仅仅是在机器人领域，而是在所有智能系统中。在需要时调用专门函数或子程序的能力正在成为下一个前沿。机器人应该能够识别任务何时需要强化学习，何时需要物理模拟，以及何时应该调用已经解决的专门函数。它应该能够确定像玻璃杯这样的精致物体与像锤子这样的工具的正确抓握方式。许多这些单独的技能已经存在——挑战在于让它们在一个自我导向、情境感知的系统中协同工作。就像人类将复杂的任务分解为更小的可调用函数序列一样，机器人需要能够动态规划多步骤操作。我相信，从静态的端到端训练转变为基于功能的适应性学习，最终将使人工智能机器人超越受控的测试环境，进入现实世界的自主状态。

直观地说，开始无缝集成具有一定凝聚力的多种专业化的方法之一是使用 LLM。事实上，OpenAI 似乎计划在未来进军人形机器人领域。然而不幸的是，机器人中 LLM 的安全性目前仍未解决。宾夕法尼亚大学机器人技术公司的研究表明，LLM 驱动的机器人系统如何通过对抗性输入进行操纵，这引发了人们对安全漏洞的担忧。研究表明，微妙的提示注入和未经授权的功能调用会导致机器人执行意外操作，这在工业、军事和消费应用中是一个严重的风险。确保人工智能安全需要硬件级保护措施、更强大的访问控制和对抗性测试以防止滥用。随着机器人变得更加自主，确保其安全免受利用将不得不与它们的能力同步。

从软件到硬件的转变将真正决定哪些公司和国家引领技术时代。工业人工智能驱动的机器人不仅会提高效率——它们还将重新定义生产和成本。人形机器人将从笨重的原型变成劳动力中的集成助手，迫使各行各业重新思考劳动模式。自主机器将很快处理关键基础设施——交通、医疗保健、安全——无论这些任务是否有人工协助。

随着机器人技术越来越先进，人们越来越担心人工智能驱动的自主武器和安全部队将成为人形机器人的首次大规模部署。世界各地的军队已经在无人机群、自主防御系统和人工智能辅助战场战略方面投入巨资（但请注意，在几乎所有情况下，尤其是动态和复杂的交战中，人类操作的版本仍然远远优于自主版本）。从遥控无人机到完全自主的机器人士兵的飞跃可能会从根本上重塑战争，引发严重的道德问题

和战略困境。正如教皇方济各所说，致命的自主武器可能会“不可逆转地改变战争的性质，使其进一步脱离人类行动”。尽管存在这样的担忧，但美国政府的监督和反制仍然很少，没有约束性法规限制人工智能驱动的军事系统的部署。如果不加以控制，这种转变可能会加速自主战争的军备竞赛，降低冲突的门槛，增加意外升级的风险（不好）。

实施以及安全、治理和道德部署的挑战是真实存在的，但它们不应掩盖人工智能机器人的巨大潜力。我们不应该害怕自主，而应该积极塑造它的发展轨迹——不仅要投资于监管，还要投资于允许机器人动态学习、适应和整合的根本性突破。机器人技术的真正未来不仅仅是盲目执行预编程规则的机器——它是一个可以智能地调用子程序、将推理（和道德）应用于复杂任务并通过学习来改善自身行为以造福人类的系统。

目前，机器人技术在泛化和自我纠正能力方面落后于其他人工智能领域，但情况不一定如此。一个真正智能的机器人系统不会只是执行一项任务——它会识别其方法何时失败并进行相应调整。无论是选择正确的抓握方式来抓取精细的物体，在不可预测的环境中选择导航策略，还是改进与人类协作的方法，机器人都应该能够模块化地组装自己的解决方案，而不是依赖脆弱的、千篇一律的模型。

投资于有凝聚力的模块化人工智能架构——机器人可以动态选择和优化自己的动作集——是我们摆脱当今僵硬自动化的方式。这就是将人形机器人从机械工具转变为真正智能系统的原因。目标不仅仅是消除人类劳动——而是扩展人类的能力，开启人与机器之间新的协作形式，并确保机器人的构建兼具弹性和责任感。

当我们成功时会发生什么？当人工智能机器可以处理一切——将人类从经济必需品中解放出来时，世界会是什么样子？如果虚拟和物理机器接管了所有生产、所有服务工作，甚至智力劳动，那么我们还能做什么？

原文链接：AI’s True Power Isn’t Text or Images — It’s Robotics

汇智网翻译整理，转载请标明出处