如果说去年机器人行业上半年发展的关键词是“机器人+”概念,那么去年下半年到今年年末机器人行业发展的关键词毫无疑问无疑只有一个,就是“具身智能”。
虽然应用侧落地的痛点一直困扰着产业链,但具身智能概念的出现让机器人,尤其是人形机器人的量产及产业化落地正在超出预期地加速发展。在今年的北京2024世界机器人大会上,众多人形机器人纷纷亮相,数量创下历届大会之最。
同时,今年也是端侧AI蓬勃发展的一年,从芯片制造、操作系统开发到终端设备开发、应用开发等各个环节都在不遗余力地进行端侧AI技术的融合,AI得以持续向端侧应用发力,各类AI智能终端产品在市场上涌现并迅速占领份额。
端侧AI在消费电子领域的火热进展自是不必多说,机器人也开始越来越多地与端侧AI技术结合,向更高阶的智能化升级。黄仁勋曾表示,AI下一个浪潮将是“具身智能”,即能够理解、推理并与物理世界互动的智能。体现在终端设备上,智能机器人是最通用的具身智能终端形态,甚至人形机器人可能成为真正意义上的自主智能终端,而这一愿景离不开背后机器人与AI技术的深度融合。
作为集前沿科学技术于一身的产品,机器人的感知层、决策层、执行层等等每一类技术框架里都有着大量可智能化的空间。我们把切入点缩小一些,着重从感知层面来看传感与人工智能的结合到最后实现具身智能感知。
机器人任务流程的正确执行,其源头都是机器人对其自身状态、操作对象以及作业环境有正确的认知。这依赖于机器人搭载的传感系统能搜集足够的内外部信息以便决策层进行运动规划。这一点和我们人类是相通的,机器人的传感系统就是人类的感官,一方面收集周围环境信息,一方面进行自身状态的感知。通常在一个机器人端侧系统中,会用到传感器、主控以及必要的通信连接功能,传感器负责采集真实物理世界的信号,然后将数据传递到主控中进行处理。
对于像工业机器人这样的传统机器人而言,感知部分是较为单一的,有位置传感器用于运控即可,发展到后来部分工业机器人也仅需要少数的感知单元来完成一些额外的功能。而且传统的机器人传感器定位仅仅是一个单纯用于感知器件,属于完全的被动方,只以旁观者的视角对目标量进行记录,功能点明确且单一。
随着机器人整体软硬件技术的完善与发展,越来越多功能得以实现,机器人本身也成为传感器高度集成的端侧设备,小到电流传感器、温度传感器,大到IMU、编码器、视觉、激光雷达等等一系列传感器从各个维度丰富着机器人对环境对世界的感知。
更重要的是,传感器不再只是被动地去记录目标参数,而是变得更主动、更智能,能够基于收集到的数据主动去做融合、分类和预测等等一系列此前无法实现的功能。
这些改变都得益于AI相关技术的引入,如果说此前这些升级与革新只是锦上添花的话,到了现在人形机器人具身智能时代,端侧设备上传感器与AI的结合绝对已经成为必不可少的技术栈。
因为具身智能与传统智能差别在于具身智能是具有主动性的第一人称智能,能够在与环境的交互感知中将数据的采集、模型的学习、任务的执行融为一体实现自主学习,感知层不与AI深度结合难以实现这种主动智能。
从具身智能整个实现的技术框架来看,仍旧是感知、决策、执行三个核心技术环节以及配套的通信与交互技术。具身感知是后续环节的支撑,包括对世界模型的全感知及与环境的实时交互感知,可以结合真实交互反馈数据不断自主修正预先构建的数据库,获得更精确的世界理解与模型建立。而后通过构建仿真引擎,对具身任务进行模拟,结合感知数据进行想象操作,为机器人具身执行提供支撑。
可以说,具身传感是具身智能机器人的基础,只有一套完整的具身传感系统才能让机器人实现真正具身智能,通过感知的传递完成对运动控制的指导。具身智能机器人需要多种传感器,感知带动运动控制的范式变化。例如在抓取物品的时候,会先利用传感器组合判断方位,再识别物品的大小,调整伸手距离等,再通过力/触觉传感器调整抓握力,进而完成一系列动作。其中每一个环节,都有着AI能够助力的空间。
端侧的AI与传感器融合是机器人发展较为迅速的一个领域,不少感知方向的传感都已经有了明显的智能化提升。各个不同维度的传感方向,都有相关技术力量在推动。
机器视觉
AI+3D视觉主导的机器人视觉传感已经在行业内发展了很多年,是AI与传感器结合得较为成熟的赛道。以往更多的是在实时收集真实数据后不断在云端优化视觉算法。端侧AI的兴起,开始直接在端侧进行数据处理,降低了可能因传输数据造成的延迟与可靠性问题。
同时基于获取到的点云/图像信息,端侧能够直接进行一定计算量AI功能实现,如进行姿态识别、手势识别、人脸识别等等。此外,机器人向具身智能的发展更强调传感器对3D空间和动态环境有更深入的理解。端侧的视觉信息收集只是第一步,后续要进行视觉感知和推理,理解场景中的3D关系,并基于视觉信息预测和执行复杂任务,最终形成主动的视觉感知,结合真实交互反馈数据不断自主修正完成从仿真到现实的跨越。
根据Yole的调研数据,3D视觉传感市场在2022年的收入已达到82亿美元,并预计到2028年将翻倍增长至172亿美元。同时,MarketsandMarkets的预测显示,到2028年全球AI传感器市场规模将达到221亿美元,相比2022年的30亿美元,年复合增长率高达41.6%
语义识别处理
端侧AI在自然语言处理NLP领域上的优势也正在被机器人应用起来。借助端侧的大模型进行自然语言识别来做语音交互、语音唤醒、聊天问答等等功能只是最基础的一部分,也只是第一步。
被下达任务指令的机器人,大语言模型识别完成后自动拆解出涉及的机器人技能与子技能,根据给定的最终目标任务进行自主地从Language到Action模型构建,在端侧AI使能下自主编排复杂任务才是具身智能机器人更前瞻的方向。
国内NLP市场规模于2021年达到181.3亿元,在AI技术不断融合与迭代升级的背景下,国内NLP市场将于2026年达到836.6亿元。随着人工智能技术的不断融合与提升以及高度智能化机器人发展,NLP技术的应用边界仍在不断拓展。
机器触觉与多模态感知
嗅觉和味觉较少在机器人中提及,而触觉作为人类感知世界的重要手段,在机器人中相比于视觉与听觉的进展则慢得很多。即便到现在,对触觉的感知也很难称得上完备。
触觉本身就是多模态的,对力的感知的确占据了很大一部分,但并不是全部,材质、温度、滑动、回弹等等物体触觉信息都囊括在其中。想要完整对触觉进行定量的标注,需要对传感器收集到的大量数据进行处理。一些传感器厂商会将原始信号的复杂解析函数映射到一维线性空间完成力学信号的快速求解,这样能降低算力需求,但其他维度的数据仍旧需要后期处理。
借助端侧AI硬件,多模态触觉感知会变得更加简单,以数据为驱动算力的加持能快速分类各维度信号,解析出完备的多模态参数。前端更快的反应速度也让机器人的触感反应速度能媲美人类。据知名国外咨询机构VMR预测,2028年触觉传感器市场将达到260.8亿美元。
这些外部信息感知都已经开始与端侧AI结合,机器人内部感知同样不例外。例外意法半导体早在2019年就推出了集成ML内核的传感器,能够运行一些简单的AI模型。后续又在机器人核心的IMU器件上更新了加持DSP的ISPU(Intelligent Sensor Processing Unit),能在端侧自动分析处理机器人位置数据。
传感器上的AI算力的增强实现了海量数据处理的分区,根据算法难度调配算力资源,大幅提升整个端侧系统的能效,让整个感知更加智能。
智能决策感知先行,具身智能概念推动着机器人向更自主更智能的未来发展,为打好具身智能感知基础,传感器技术与端侧AI技术结合得越来越紧密。日后,机器人会通过视觉/触觉等感知方式识别建立并不断修正具身多模态基础模型,通过听觉理解指令,并理解自身的状态,以实现复杂的交互和操作。
同样,具身智能下的机器人传感,始于感知但又不只是感知。传感器也将不再只是用于感知的硬件,而是在实时精准多维感知的基础上,拓展更多和AI相关的功能,借力端侧AI提供更多数据处理、分类、融合的价值,最终通过融合的多模态传感数据来增强智能体的理解和决策。
当然,现阶段端还面临着如何更好地融合传感器与端侧SoC兼顾性能与成本的难题。虽然机器人并不像其他端侧设备对成本很敏感,但对于想要落地的机器人来说,这一问题迟早也会面对。虽然多位科技行业巨头都表示未来人形机器人会像汽车一样普及,但机器人的商业落地仍旧要考虑这些实际问题。
从传统感知到机器人具身智能传感,机器人传感器延展出了更多地和AI相关的计算、融合的功能。在端侧AI时代,传感器将提供更多的数据处理的价值,通过交互感知、自主挖掘为机器人构建起不断优化的真实世界模型,推动具身智能目标的实现。