近期,全球领先的人工智能研究团队,斯坦福大学李飞飞教授团队发布了他们在“空间智能”领域的最新突破性成果——ReKep(Relational Keypoint Constraints,关系关键点约束),并通过试验表明,ReKep在机器人操作、家务自动化等领域具有广泛的应用潜力。该研究中,团队使用了奥比中光RGB-D相机Femto Bolt,精准有效捕捉实验场景的彩色图像及深度信息,帮助ReKep系统识别和定位场景中的物体及其关键点,为机器人动作优化和复杂交互提供了关键的3D视觉数据支撑。
↑ 点击播放视频 ↑
根据研究论文释义,ReKep是将复杂任务转换为一系列关系关键点的约束优化框架,以Python函数的形式表现。这些函数将环境中的3D关键点映射为数值成本,通过捕捉具有任务语义和空间意义的3D关键点,赋予机器人自主决策能力,从而高效应对每个任务的核心挑战。基于Femto Bolt提供的高质量RGB和深度数据,ReKep系统能精准将环境中的3D关键点映射到数值成本来定义这些约束。
深度感知,精准规划
Femto Bolt是一款基于微软先进的ToF(飞行时间)传感技术设计的RGB-D相机。其中,RGB图片的生成帮助ReKep系统进行目标检测和识别,深度图像可以提供精确的3D信息,让ReKep系统分辨目标的空间位置和距离关系,二者结合让ReKep系统充分理解操作场景,生成引导机器人决策与执行关键点的3D坐标。
此外,3D关键点的准确提取对数据质量提出了极高要求,包括深度精度和点云质量。Femto Bolt 能输出4K高分辨率图像,有效减少误识别并提升互动可靠性,这对机器人执行精细、复杂的操作至关重要。
超低延时,流畅交互
在实验研究中,ReKep系统对环境3D关键点的捕捉与传输需要具备足够快的速度,以确保人机交互的流畅性。Femto Bolt 通过每秒30帧的高帧率捕捉深度数据,并集成了多模式的深度图像、彩色图像模块及惯性传感器,以超低延时实现实时反馈和互动,确保机器人能够迅速响应ReKep系统的指令。
多机同步,高效协作
李飞飞团队在不同机器人平台上搭建系统进行多种任务实验,包括单臂和双臂机器人的多阶段、双手协作积极反应性的操作任务。Femto Bolt支持多机同步,通过构建更大范围内的空间采集,帮助多台机器人协作完成共同的任务。
在多机同步方面,Femto Bolt使用了通用性更强、功能扩展性更广的8针GPIO接口,并配备相应的连接器材。同时,Femto Bolt还配备了带锁的USB-C接口,确保供电和数据传输的同时进行,增强了系统的安全性和稳定性。
图片来自于李飞飞团队ReKep研究论文
深度融合大视觉模型
更值得关注的是,李飞飞团队在该研究中结合了视觉模型与视觉-语言模型,当中包括GPT-4o(OpenAI为聊天机器人ChatGPT发布的语言模型),充分展示了视觉与机器人学习的深层次融合。在不提供特定任务数据或详细环境模型的情况下,ReKep系统展示出在非结构化环境中完成任务的良好泛化能力,具备不同任务策略的适应性。
图片来自于李飞飞团队ReKep研究论文
在机器人视觉领域,奥比中光拥有超过8年的商用落地经验,致力于打造机器人的“眼睛”。今年3月,奥比中光与英伟达携手,将Femto Bolt先进的iToF技术与NVIDIA Orin AGX的人工智能计算能力结合,搭配Universal Robots UR5机械臂,实现了高精度的物品检测、拣选和放置,为料仓拣选树立了新的行业标杆。在多模态大模型技术(语音、文本、视觉)与机械臂控制技术的探索中,奥比中光研发团队已推出2.0版大模型机械臂,具备精准识别日常物体并理解执行指令的能力。未来,奥比中光将继续探索机器人视觉传感技术的应用,助力空间智能系统发展,进一步推动机器人视觉与人工智能的技术突破,开启更广泛的智能化应用场景。
奥比中光相机Femto Bolt及其大模型机械臂点云效果图
*部分内容来源:
ReKep | Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation (https://rekep-robot.github.io/)