AI下一个浪潮在何方？“算力霸主”遥指具身智能

《科创板日报》5月17日讯（编辑郑远方）AI发展的下一站在哪里？“算力霸主”英伟达创始人兼首席执行官黄仁勋给出了答案：具身智能/具身人工智能。

在ITF World 2023半导体大会上，黄仁勋表示，人工智能的下一个浪潮将是具身智能（embodied AI），即能理解、推理、并与物理世界互动的智能系统。

同时，他也介绍了英伟达的多模态具身智能系统Nvidia VIMA，其能在视觉文本提示的指导下，执行复杂任务、获取概念、理解边界、甚至模拟物理学，这也标志着AI能力的一大显著进步。

而在今年3月，谷歌联合柏林工业大学团队发布PaLM-E，这是一种多模态具身视觉语言模型，也是史上最大的“通才”AI模型，其不仅可以理解图像，还能理解、生成语言，可执行各种复杂的机器人指令而无需重新训练，且表现出很好的迁移能力。

值得注意的是，政策端也已开始着目于具身人工智能。

北京市日前发布《北京市促进通用人工智能创新发展的若干措施（2023-2025年）（征求意见稿）》，其中便提出探索具身智能、通用智能体和类脑智能等通用人工智能新路径，包括推动具身智能系统研究及应用，突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。

▌何为具身智能？如何实现？

具身智能指的是智能体通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力。

换言之，一个具身智能机器人需要：首先听懂人类语言，之后分解任务、规划子任务，移动中识别物体，与环境交互，最终完成相应任务。

正如斯坦福大学计算机科学教授李飞飞所说，“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

若想要实现具身智能，离不开多个学科的交叉互助：

1）机器人学为具身智能提供机械身体和基本运动控制；

2）深度学习中的神经网络是具身智能中主要工具；

3）强化学习是具身智能机器人的主要学习手段之一；

4）机器视觉给具身智能提供了处理视觉信号的能力；

5）计算机图形学开发的物理仿真环境为具身智能提供了真实物理世界的替代；

6）自然语言给具身智能带来了与人类交流、从自然文本中学习的可能；

7）认知科学进一步帮助具身智能体理解人类、构建认知和价值。

实际上，“具身智能”最初可追溯到1950年，当时图灵在论文《Computing Machinery and Intelligence》中首次提出了这一概念。但在之后的几十年中，具身智能都没有取得特别显著的进展，大多数机器人的行动依旧仰赖人类的手写指令与代码。

这也是为何上文那个谷歌“史上最大‘通才’AI模型”能引起业内轰动——它无需预先处理的场景，因此也不用人类对相关数据进行预处理或注释。只需要一句简单的指令，便可实现更为自主的机器人控制。更重要的是，PaLM-E生成的行动计划还具有“弹性”，即可对周围环境变化作出相应反应。

实现通用人工智能是行业的一大愿景。但人工智能中集成了太多概念，其中一些概念难以被测量或验证。而正如上海交通大学教授卢策吾所说的那样，虽然人工智能能给你输出一个表征，但很难检验它们是否真的理解了这些概念。“所以我们可以先在一些可验证、可测量的概念上面做出个闭环。而具身智能刚好是这样一个闭环，这样的具身智能可能是迈向通用智能的一个很好的起点，因为它可测量、可解释、可检验。”