不久前,国内机器人公司宇树科技在其官方公众号推送了一篇名为《Unitree G1 人形智能体 AI化身 ¥9.9万元起》的文章,宣布其推出了一款9.9万的人形智能机器人。十万不到的价格,瞬间让人有一种科幻马上就要照进现实的既视感。
尽管2024年的进度条走了还不到一半,但有关人形机器人的炸场消息却是接连不断。
先是英伟达CEO黄仁勋在其3月份召开的GPU技术大会上与9款人形机器人同台,接着宣布英伟达将开启人形机器人通用基础模型GR00T项目,用新GPU为人形机器人智能化提供算力支撑。引发了一阵关于具身智能的热议。
一个月后,老牌机器人公司波士顿动力宣布旗下传统的液压式人形机器人退役,并推出其全新研发的全电动Atlas机器人。又掀起了一波关于人形机器人发展过往的追忆热潮。
5月初,特斯拉发布了一段展现其人形机器人Optimus(擎天柱)的视频。视频中,有的机器人在拾取电池芯并将它们准确插入到对应的托盘中,还有机器人在进行其他物品的摆放和衣物折叠等操作。
紧接着就是上文提到的,宇树科技祭出了9.9万的价格大招。
看到如此一系列密集的大事件,很难让人不产生一种人形机器人的春天已经来临的幻觉,也难怪有人会高呼“2024年是人形机器人元年”。
到今天,人形机器人经历了怎样的发展历程?为什么大家突然又对其展现出如此大的热情?在这些欢呼的背后,人形机器人的发展还面临哪些问题?本文将就这些议题展开讨论。
根据控制论的观点,非生命体具备智能的一个关键表现,就是其能够和生命体一样对周遭复杂环境进行主动感知,并作出合理反应。这需要至少三个要素的支撑:感觉要素、运动要素和思考要素。
如果从这个视角出发,第一台称得上人形智能机器人的产品,是早稻田大学在1972年推出的WABOT-1。这款机器人在不用人类时刻操纵的情况下,可以实现自主行走、抓取物体、用日语交流等行为。通过各类传感器,这款机器人拥有一定程度的视觉、听觉和触觉,可以感知周围的状况,并主动调整自己的动作。
事实上,在波士顿动力和特斯拉站在聚光灯前的日子里,人形机器人领域主要由日本的机构和企业引领。
1984年,WABOT-1的升级版WABOT-2被推出。它被设定为一款音乐机器人,可以识别乐谱,并根据乐谱弹奏风琴等乐器。
与此同时,工业巨头本田也进入了这一赛道,并在2000年推出了以著名科幻作家命名的阿西莫(ASIMO)机器人。这是一款具备奔跑、跳跃等多项运动能力,还可以通过视觉、听觉感应器规划路线,给人端茶倒水、表演舞蹈,并能够用语音和手语跟人交流的机器人。
此后,追光灯便打到了北美的舞台。
先是波士顿动力在2013年推出原型机,并于2016年正式发布,可以实现跑酷、后空翻、侧滚翻、前滚翻、180度空中转体、空中劈叉、360度空中转体等高难度动作,还能在复杂的野外环境中自主完成各种任务的Atlas机器人,长期引领着人形机器人的话题榜。
接着,在2021年的特斯拉AI Day上,马斯克通过幻灯片发布了一款概念人形机器人Tesla Bot,将人形机器人的发展带入了一条新赛道——从过去更加关注躯体的发展,转向如何让其拥有更强的通用智能。
人形机器人的发展并非一帆风顺。
由于其研发成本和造价太高,同时又找不到合适的应用场景,使得该领域始终无法实现商业闭环。本田在2018年就停止了机器人研发业务,而波士顿动力更是几经易手,从谷歌到软银再到现代,命途坎坷。商业模式的不明朗,让人们一度对这个赛道的热情降至了冰点。
之所以人们在2024年又开启了对人形机器人的热情,主要原因来自成本的推力和技术的拉力。
首先是大语言模型技术的突破性发展,让人们看到了人形机器人向通用性方向发展的可能性。过去的机器人需要通过编程告诉它们执行什么任务和怎样执行任务,没法实现编码之外的感知与行为,这也大幅限制了其应用场景。而大语言模型技术的发展,一方面让人机交互变得更加简单,另一方面也有望实现反应层面的涌现与泛化,通过自主学习完成那些“意料之外”的工作。
其次,就是新能源汽车等行业的发展,让一些人形机器人的关键零部件的价格持续下跌,进而让人形机器人整体的成本下降成为了可能。
过去,一台人形机器人的价格动辄在100万人民币以上。但近期,市场上陆续出现了一批单价价格带在15到20万之间的人形机器人,斯坦福机器人、特斯拉、国内的智元机器人等都先后表态会将成本控制在20万以内,价格下探成为必然趋势。
尽管如此,人形机器人要在智能化和市场化方面实现突破,依旧有一段远路要走。
上世纪80年代,人工智能学者汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现,与传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力,并据此提出了著名的莫拉维克悖论。
以曾经在围棋领域大杀四方的AlphaGo为例。
尽管其围棋能力领先到令人恐怖的程度,但是严格意义上讲它不是一个完整的棋手,只是一个棋手的大脑部分,负责识别局势、做出决策,而充当这个棋手躯体的其实是一个人类棋手。AlphaGo根据对手的招数给出应对后,需要一个专门的人类棋手去移动棋子。
我们常常会忽略这一点,是因为在我们的认知习惯中,移动棋子是一个再简单不过的操作,在整个对弈过程中,与高深莫测的下棋策略相比,这个动作简单到可以忽略的程度。但正是这种对人类而言无比简单的动作,恰恰是智能机器面临的最大挑战。
一个完整的对弈过程,其实是多重能力共同驱动的结果,既需要感知、判断、分析和决策这些大脑功能,也需要移动和操作这样的躯体功能。由于我们本能地对人类引以为傲的智力的重视,使得我们在相当长的一段时间里都只关注机器的智能,而没有将其视为一个完整的、独立的物种去看待。
随着应用场景的拓宽和丰富,我们才逐渐意识到,在脑力上能够战胜顶尖围棋手的智能机器,在运动协调性上可能还不如一个小孩子。并不是说机器在单纯的运动和操作方面不如人类,机器可以搬运很重的东西,也能以让人类望尘莫及的速度移动,但是它们无法像人类那样自如地协调好智能模块和体能模块。
著名认知心理学家史迪芬·平克在其《语言本能》一书中对此评价道:“经过35年人工智能的研究,发现到最重要的课题是‘困难的问题是易解的,简单的问题是难解的’。四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答问题——事实上是工程领域内目前为止最难解的问题。当新一代的智慧装置出现,股票分析师、石化工程师和假释委员会都要小心他们的位置被取代,但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。”
尽管大语言模型的突破为人形智能机器人的发展带来了新曙光,但是人形机器人要实现“大脑”和“机体”之间的顺畅衔接和丝滑运作,依旧是一段漫长而艰辛的道路,需要不同领域的参与方共同努力推进。
除了技术方面的障碍,价格也是一个问题。
在技术传播理论中,有一个概念叫价格价值(Price Value),指消费者在权衡技术产品或服务的感知收益与其感知成本后,所形成的总体评价。简单来说,就是消费者认为购买或使用某项技术所花费的金钱是否值得。
所以,一个产品是否便宜,不是单方面价格因素决定的,而与消费者的感受有很强的关系。
如果单纯从厂家的角度来看,一台机器人,我从过去的100万、50万降到了9.9万,这种骨折式降价的努力不可谓不大。但是回到顾客这边,我花9.9万买个东西,总得为个什么。顾客看重的,还是我买它过来能干什么,如果只是看它翻跟头、走路、拿放东西,那多少有点不值当。
当然,肯定会有一些烧包乐意花钱买个新鲜、炫个阔绰。但是仅靠这些人撑不起一个大市场,无法形成真正的商业闭环。
所以,人形智能机器人要解决的第二个问题,就是如何让它们真正能够在人类社会发挥价值。相关企业需要把自己克服的技术障碍转换成真正的客户收益。
如果从这个角度看,我们需要的或许不是人一样的机器,而是能够代替人的机器。
波士顿动力的首席技术官阿龙·桑德斯(Aaron Saunders)在一次采访中表示:人形并不一定是机器人完成任务最好的形态。
从上世纪80年代开始,机器人领域就形成了一种共识——机器人应该最先应用在“4D”领域,即脏(Dirty)、危险(Dangerous)、乏味(Dull)和困难(Difficult)四类场景。这些场景下的任务通常是人类不愿意或不适合执行的,而机器人因其不知疲倦和不怕危险的特性,能够很好地完成。通过让机器人承担4D场景下的任务,不仅可以提高效率和安全性,还能释放人类从事更具创造性和价值的工作。
相比于还停留在把机器人当小孩子,让它们给“长辈”表演一些华而不实的节目阶段的人形机器人,一些摆脱了外形桎梏,奔着问题和任务去的公司,已经开始让自己的机器人产品在对应的场景中发挥价值。
就在宇树科技发布9.9万机器人的第二天,全球第一商业和金融媒体CNBC公布了第12届“2024 CNBC Disruptor 50”榜单。在这一被誉为全球科技独角兽的摇篮的榜单上,OpenAI毫无悬念位列第一,榜单上排名第42位的,是一家名为Gecko Robotics的机器人公司。
这是一家成立于2013年的公司,两个创始人当年还是格罗夫城市学院学习电气工程的学生。创业之前他们参与了一项校内锅炉安全检查的工程项目,最后以在该项目中发明的方案为基础,创立了这家公司。
Gecko Robotics的主要产品是名为TOKA的智能机器人,该机器人有多款型号,配备不同数量超声波传感器的它们,可以爬上工厂的任意管道和其他重要的工业结构墙壁,对油管、锅炉或者其他设备进行超声波检测,然后通过其自主研发的快速超声波网格化技术生成厚度网格图,并以2D 和 3D 形式直观地展示在软件中,用于识别腐蚀和其他损坏机制导致壁层变薄的区域,可以让客户对目标设施的情况了如指掌,提前预判存在的问题并计划解决措施。
在这种机器人出现之前,设备检测通常是专业人员手持超声波探测器进行的。这种方式首先是很危险,因为存在一些高空作业场景和有毒有害场景;其次是用这种方式探测到的范围和数据量都极为有限,通常只能覆盖占整体大约 3-5% 的设施。而这种全新的机器人可以在最危险和苛刻的环境中运行,能够提供近99%的覆盖,收集的数据量比传统手持方法高 1000 倍,检测的速度平均快 10 倍。机器人完成数据采集后,将收集到的数据提供给专业人员,最大限度地发挥专家贡献的同时还能让他们免受伤害。
Gecko Robotics首席执行官兼联合创始人Jake Loosararian曾自豪地表示:“每天,在世界各地的数百个客户站点,我们的机器人正在保持发电厂在线、军事资产准备就绪和工厂大门打开。”
在笔者看来,这才是机器人真正应该奔赴的方向。
人形机器人正在迎来一个快速发展的新阶段,我们应该为其已经取得的突破性进展感到高兴,却又不能高兴得太早。尽管理论的道路已经铺就,但是在实践层面我们依旧处于起点阶段。人形机器人要突破的,除了技术堵点和成本阻碍外,还要面临客户价格价值感受的问题。
企业让机器人越来越像人,越来越智能,只是这个故事的一面,这个故事的推进还需要解决另一个问题,就是我们绝不是要造出一台台跟我们拥有类似能力的机器,而是要创造出一款款能够在具体应用场景下比人类能产生更大价值,同时成本更低的产品。