注:本报告由奥比中光×光锥智能联合发布。
1、具身智能时代重新理解机器人
1.1 知行合一:“离身”智能逐步向“具身”智能进化
具身智能(Embodied AI)是指具备感知和理解环境的能力,能够与物理世界进行交互,并具备行动能力以完成任务的智能体。相对而言,"离身"(Disembodiment)是指认知与身体分离,比如ChatGPT可以认为是一种离身智能,仅能对语言文本进行理解与对话,无法对真实物理世界产生影响。然而,离身智能必定会向具身智能发展," 知行合一" 是必然趋势。
1.2催生了人工智能发展新浪潮:具身智能机器人将成为人工智能终极形态
ChatGPT的出现使得人工智能拥有了"大脑",而高度发达的"大脑"对于身体功能提出了更高要求。因此,在2023年的ITF World半导体大会上,英伟达CEO黄仁勋明确表示,具身智能将是人工智能发展的下一个浪潮。
智能机器人是具身智能最直接的落地应用,当成为具身智能体的时候,机器人将迎来飞速发展。特斯拉 2023 年 3 月的投资者日,马斯克认为未来人类和人形机器人的比例将不止是 1: 1,未来人形机器人可能超过人类数量,达到100亿-200亿规模。
可以说,机器人将逐步演变为具身智能机器人,成为机器人发展的终极目标、也将成为人工智能的终极形态。
Tesla 人形机器人 Tesla Bot「Optimus」原型机正式登场
2、机器人的发展及未来趋势
2.1机器人将完成由“不动”、到“固定动”、再到“自由动”的技术变革,从而进入具身智能机器人时代
机器人的发展大致经历三个阶段:从初级机器人的"基本不动+重复执行",逐渐发展到具备"行走+独立执行"的中级机器人,最终发展为具备"自主行走+自主执行"的具身智能机器人。
在初级阶段,机器人主要表现为基本静止状态,仅能执行重复性任务,通常局限于固定的工作场景,缺乏自主性和灵活性。随着技术的进步,机器人逐渐具备了行走的能力,并能够独立地执行多样化的任务。最终,随着具身智能的兴起,机器人也发展到具身智能机器人阶段,机器人不仅具备自主行走能力,还能够自主学习、推理以及执行各种任务。
2.2具身智能机器人需求达百亿级规模,将深入人类生活、工作,极大解放生产力
具身智能机器人由于其类人化,将逐步替代人类完成由低级到高级的工作任务,让人类从重复、繁琐的工作中解放出来,将对数亿工人以及对应的数万亿市场产生深远的影响。如下图所示,技术实现难度低、劳动力密集的职业及场景会首先被机器人取代,比如无人驾驶、建筑工人、农业劳动、家政劳动等;随后随着机器人技术进步,技术实现难度较高、劳动力稀疏的部分职业及场景也将迎来机器人时代,比如保险代理人、教师等。
图表来自报告:《人工智能机器人开启第四次科技革命》(由势乘资本和光锥智能联合发布)
此外,在具体应用场景中,数十种传统机器人也将向具身智能机器人升级迭代,例如工业搬运、拆垛机器人,物流分拣、包装、协作机器人,农业采摘、分选机器人,医疗康复机器人,养老助残机器人,家用服务机器人,公共服务机器人,教育机器人以及人形机器人等。
具身智能机器人可以更高效、准确地完成任务,以节约时间和资源,所引领的机器人技术革命将带来巨大的技术红利,极大地解放生产力,同时也会创造新的经济增长点,推动社会发展与进步。
2.3具身智能机器人将沿“大脑先行、感知突破、身体完善”的方向迭代发展,当下迎来机器人视觉历史发展机遇
类似ChatGPT的通用大模型赋予具身智能机器人像人类一样的思考、推理与表达能力,但仅有"大脑"是远远不够的,还需要像人类一样具备三大核心能力:用于思考和推理的“大脑”、用于感知世界的“感觉”、用于与世界交互的“身体和手脚”。具身智能机器人的发展也一定是由"大脑"带动,逐步向“眼睛”等视觉感知体、“手脚”等运动执行体不断升级迭代的过程,即沿着“大脑先行、感知突破、身体完善”的方向迭代发展。
大脑方面,GPT、数据、算力等技术的发展给大脑提供了极佳的土壤,已高度智能化。谷歌和微软的AI团队走在前列,2023年3月,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型——PaLM-E(Pathways Language Model with Embodied),参数量高达5620亿(GPT-3的参数量为1750亿)。该模型不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。微软团队也在探索如何将OpenAI研发的ChatGPT扩展到机器人领域。
目前,已经有更为轻量化的大模型能够独立运行在边缘端(如机器人、手机)上,为其提供"大脑"功能。这些大模型在某些专业领域通过专门训练,可以接近人类的智能水平,拥有百亿级甚至更低的参数,使得它们可以在边缘设备和终端上运行,不依赖云端计算能力,从而让终端设备也能具备智能决策的能力。比如目前已经可以在手机上运行的大模型有:MobileBERT(Bidirectional Encoder Representations from Transformers),TinyBERT,MobileNet等。
紧随其后的,将是人工智能“眼睛”的爆发式发展。
3、机器人视觉的发展及未来趋势
3.1通用大模型往多模态大模型方向演进,机器视觉向机器人视觉进化
ChatGPT通用大模型仅支持自然语言处理,然而机器人大脑所要处理的信息是多模态的,例如文本、视觉图像、语音等等,因此大模型也正逐步往多模态大模型方向演进。多模态大模型能够将不同模态的信息融合在一起,实现跨模态的理解、生成和推理,与人类大脑的功能最为接近。近期,Meta推出了多模态大模型ImageBind,能够处理文本、音频、3D视觉、温度、IMU信息;华为也将在2023年7月推出 “盘古Chat” 多模态大模型。
随着多模态大模型的发展,当“大脑”具备对视觉信息处理、推理等能力,对“眼睛”的需求便呼之欲出,一方面视觉信息是多模态信息的必要组成部分,二是与人类类比来看,视觉信息在所有感知信息中占比超过70%,也将是人工智能感知世界最重要的信息源。传统机器视觉普遍是2D的模块化视觉设备,应用在相对固定的环境,而具身智能机器人所需要的机器人视觉则是类人眼的小型化、3D的嵌入式器件,且面向的是复杂变化的环境,因此在产品形态以及技术实现上都与传统机器视觉存在巨大差异,机器视觉将向机器人视觉不断进化。
3.2产品形态上,机器人视觉相比传统机器视觉更加 3D化、高度集成化、场景复杂化
(1) 2D视觉向3D视觉进化,3D视觉具备毫米级甚至更高精度的视觉能力,可以对真实物体场景进行高精度扫描与还原。传统2D视觉只能应用在“可控规范”的环境中,比如工业产线,而具身智能机器人所面对的是不可控规范的场景,2D视觉无法满足。
(2) 模块化向高度集成嵌入式进化,传统机器人例如部分工业机器人所配备的视觉设备大都是模块化的设备,普遍包括光源、镜头、相机、图像采集卡、机器视觉算法、应用软件等模块,其中光源跟相机分开,相机跟镜头分开,相机跟图像采集卡分开,各个部件体积庞大,导致整体体积大、成本高,无法应用于需要广泛普及的具身智能机器人中。
(3) 单一场景到复杂场景(变化场景)进化,具身智能机器人所面向的是未知的复杂场景或变化场景,这就导致单一视觉传感器无法满足需求,另外为了应付变化场景,要求具备极高鲁棒性的智能视觉算法。
因此,具身智能机器人所需要的“眼睛”,一定是3D的、高度集成的、适应复杂变化场景的智能化“眼睛”。
3.3技术实现上,机器人视觉相比传统机器视觉更注重多专业融合、底层元器件定制与集成、以及高度依赖智能视觉算法
(1) 多专业、跨学科、高精尖。3D视觉相对2D视觉虽然多了一个维度的信息,但要付出的是技术代价是,全新的系统架构设计、被精密编码的光学发射器、颠覆性的芯片像素架构设计、高稳定性的光电结构设计、高精密的制造产线,需要从系统、芯片、光学、结构、算法多专业进行逐一突破后进行高度融合。
(2) 定制化、集成化。设计出符合具身智能机器人的视觉系统,需要对所有核心元器件进行特殊定制,包括机器人视觉专用芯片,要求企业具备底层创新能力,并进行高度集成,才能在性能、成本、体积上实现最优,以满足具身智能机器人需要。
(3) 高度依赖智能视觉算法。面对复杂变化场景,比如高温环境下需要适应温度变化、在光照变化场景下需要稳定输出数据、多视觉传感器之间需要高度同步与配准、在遭遇打击跌落时可以及时恢复视觉能力,这里面将运用多种智能视觉算法,比如HDR、AF、复杂材质成像、温度补偿算法、光照自适应算法、同步配准算法、抗变形算法等等,这些智能视觉算法都是传统机器人视觉所不涉及的。
因此,随着机器人向具身智能机器人发展,机器人视觉也朝着3D、高度集成、适应复杂变化场景的方向进化,对相关研发机构也提出了全新的能力诉求,多专业融合、底层创新能力、智能视觉算法将成为企业的核心技术竞争力。
4、奥比中光的机器人视觉技术布局、产品与应用
奥比中光经过10多年的发展,致力于让所有终端看懂世界,高度契合当下具身智能机器人视觉发展需要,面向具身智能机器人,已布局了全方位的机器人视觉技术与产品方案。
4.1全球率先完成具身智能机器人视觉的核心技术布局
针对具身智能机器人视觉,奥比中光着眼于中长期技术发展与需求进行了全方位的技术路线布局以及技术能力布局,其中技术路线覆盖单目结构光、双目视觉、TOF、LIDAR,技术能力覆盖机器人视觉芯片、智能视觉算法、模组及方案以及规模化量产等能力。
4.2 已推出面向具身智能机器人所需要的多种系统布局产品
基于机器人本身算力差别,布局了两种系统方案,一种是针对机器人本身具备较高计算能力的,仅提供低成本的嵌入式视觉传感器,传感器本身不带智能视觉算法;二是自带边缘算力的智能视觉传感器,传感器可自行执行算法及软件,可以应用在本体不具备额外算力的机器人上。
4.3全球范围内成功落地多种机器人视觉应用
奥比中光在过去的十年里,一直致力于给机器人提供智能化眼睛,推动机器人视觉发展,相应视觉产品已经在商用清洁、配送、迎宾、教育、仓储物流等多个领域成功落地,服务于各种类型的机器人,包括轮式机器人、机械臂、多足机器人以及人形机器人。
1) 在商用清洁领域,搭载奥比中光DaBai双目结构光相机的高仙清洁机器人可以自动识别、清理垃圾,并在复杂的户外环境中自动避障,极大地提升了清洁效率。
2) 在送餐领域,搭载奥比中光DaBai Pro双目结构光相机的普渡送餐机器人可实现在餐厅复杂环境下遇障即停,随转即走,做到3D全向避障。
3) 在工业领域,搭载奥比中光DaBai DCW双目结构光相机和MS500单线激光雷达的AMR可实现在智慧工厂环境下的货物自动转运,极大提高生产效率。
4) CES2023,由奥比中光和微软、英伟达联合研发制造的深度相机Femto Mega首次亮相,该相机融合微软第一代深度相机Azure Kinect的全部性能,并集成英伟达Jetson Nano深度算力平台,成为物流、机器人、制造、工业、零售、医疗保健和健身解决方案等领域3D视觉开发的理想选择。
5) COMPUTEX 2023(台北国际电脑展)正式举办。NVIDIA创始人兼CEO黄仁勋在 COMPUTEX 2023大会主题演讲中介绍了NVIDIA全球产业数字化生态布局,作为其合作伙伴,奥比中光正式宣布将Femto Mega和其它3D相机集成到NVIDIA Omniverse生态开发平台中。NVIDIA Omniverse是一个开放的开发平台,用于构建和运行元宇宙应用。在奥比中光3D相机集成到Omniverse后,使用NVIDIA Isaac Sim(一种机器人模拟工具包)的客户就能够快速设计其3D视觉系统,提高AI系统设计和测试的真实性和精确性。
结语
毋庸置疑,具身智能机器人将开启全新机器人革命、引领新一代人工智能浪潮,通用大模型向多模态大模型发展,机器视觉向机器人视觉进化,站在新一轮科技革命历史机遇上,奥比中光将通过核心技术打造机器人视觉产品,通过产品的推广应用助力具身智能机器人视觉技术进步与行业发展。