“我觉得AI的方向搞错了。我们希望机器人帮人类扫地、洗碗,人类去写诗、画画;结果现在AI都去写诗和画画了,我们人类还在扫地、洗碗。”这是不久前网上流行过的一个段子,让人莞尔一笑的同时,忍不住发问:AI已经如此发达了,什么时候才会有更灵活、更智能、全心全意为人类服务的机器人呢?
就在为这个问题感到困惑时,一份来自美国的惊喜让我豁然开朗。当地时间3月13日,机器人公司Figure展示了一段令人惊叹的机器人操作视频。视频中,机器人与人的对话流畅、行动准确,似乎真的拥有了思维。比如测试人员问:“你看到了什么?”机器人能详细描述它所看到的一切,分毫不差;测试人员要求给食物,机器人竟然拿起面前的苹果给了测试人员,还解释说因为这是桌上唯一能吃的东西;测试人员让机器人根据现在情况,重新摆放杯子和盘子,机器人就把它们分类收纳到沥水篮里……
看到这一幕的时候我目瞪口呆,简直太神奇了!这几个指令可不像表面看上去那么简单,总结起来:Figure 01可以通过视觉感知、描述周围环境、物置和关系;理解物体的定义和用途,可以基于常识做出推理和决策;可以将模糊的指令转化为符合情境的适当行为,还能解释自己的行为逻辑。除此之外,它与人类的对话自然流畅,身体动作也非常协调,十分贴近“具身智能”(Embodied Artificial Intelligence)的理想状态。
具身智能,具体点说,就是像人一样能与环境交互感知,自主规划、决策、行动、有执行能力的机器人/仿真人,是AI的终极形态。与传统机器人相比,具身智能的机器人更灵活、适应性更强,它们应该能与人类直接沟通,更像是我们生活中的一部分,而不仅仅是一台机械设备。
早在20世纪80年代,研究者们就意识到,单纯地让机器执行任务并不是理想的机器人形态。他们追求的是一种更为智能的存在—“聪明的机器人”。为了实现这一目标,研究者们开始探索将人工智能技术与物理设备相结合。但如何让机器人理解并适应环境,成为一个巨大的挑战。
比如,从桌子上拿起一个苹果,对机器人来说,必须先了解什么是桌子、桌子的形状和尺寸,以及苹果的形状、尺寸和在桌子上的位置等等信息。这仅仅是开始,因为真实世界充满了各种复杂的变化。一旦环境中的任何因素稍有不同,比如苹果换成杯子,或者位置稍有变动,机器人就可能无法完成任务。
随着时间的推移,传感器技术的飞速发展为具身智能输入了更多信息,也带来了新的机会。如今,智能家居可以根据人的行为调整设备状态,自动驾驶汽车已经上路行驶,无人机能够自动跟拍。这一切都证明了具身智能的无限可能性。
而ChatGPT的出现,更是为具身智能的发展注入了前所未有的新动力。比如前文中提到的这家Figure机器人公司,2022年才刚刚成立,先后拿下了英伟达和亚马逊的投资、Open AI和微软的技术支持,还挖走了苹果、谷歌和波士顿动力的大量员工,因此进展速度超快,只用了12个月就造出了第一台机器人。在AI大脑的加持下,机器人用了10小时就学会了使用咖啡机冲咖啡,可以像人一样,通过多模态技术,也就是声音、图片、视频等去实现自我学习、自我提升。
最令人震撼的是,ChatGPT作为机器人的大脑,正在真正地感知和学习物理世界。预计未来将有更多机器人公司利用Open AI的技术,而机器人所学习的大量数据又会回馈到大数据中,这无疑将加速AGI(通用人工智能)的实现。
想象一下,在不远的未来,人形机器人走进千家万户、融入人类社会,这将对所有行业产生深远的影响。比如:在工业制造领域,具身智能体可以协助工人完成更高难度、更高强度、更复杂的工作;在医疗卫生领域,它可以协助医生进行手术、护理,监测病人生命体征甚至参与急救;在农业领域,它有助于提升种植、施肥、收割等工作的效率;在物流领域,具身智能体则能够协助快递员完成快递分拣、送货等等。
就我个人来说,最期待的当然就是家庭式的机器人保姆了,尤其是在全世界人口增长放缓、老龄化比例上升的未来,机器人可能会成为养老刚需。如果真有这样的产品,我是肯定会买一个的,这毫无疑问。