作者:马赫环

春晚之后,人形机器人的产业节奏还在加快,松延动力、银河通用、千寻智能、星动纪元、极佳视界等具身智能企业陆续宣布完成了新一轮融资,魔法原子则是经历了融资与创始人离职的“冰火两重天”,宇树科技也传出了IPO申请获受理的消息。

3月18日开幕的AI Show 2026北京国际人工智能应用与机器人创新博览会上,北京人形机器人创新中心“具身天工2.0”、宇树科技人形机器人G1、云深处“山猫M20”轮足机器人等产品展出,为大众展示了人工智能与机器人产业从技术突破到场景落地的各种可能性。

动捕刚需:人形机器人催生500亿新蓝海

人形机器人产业落地的瓶颈逐渐显现,过去两年,产业重点关注核心零部件的国产化替代以及商业化落地,2026年春晚机器人集体亮相后,业界开始关注人形机器人从“会动”向“会思考、能干活”的跨越,而要实现这一点离不开海量的训练数据支撑。

数据采集方式分遥控操作、动作捕捉、大模型三类。其中,动作捕捉能直接将人类动作迁移至人形机器人,由于具备精度高、数据采集全面等优势,或是目前人形机器人最合适的数据采集方式。

而动作捕捉系统主要为光学式、惯性式。光学式基于光学摄像头完成物体捕捉和定位,惯性式则利用惯性传感器(IMU)测量物体的加速度、方向、倾角等,由于人形机器人在运动过程中涉及检测平衡、跌倒、抗扰需求,采用惯性动作捕捉更为合适。

之前,特斯拉机器人采用了Movella动态捕捉训练,开发人员穿着动捕设备执行任务,惯性传感器捕捉记录数据,传输到平台分析,Movella积累的数据库也可供机器人开发使用,因而可以看出硬件设备、软件开发、大数据构成动捕企业的核心竞争力。

动捕核心是由数据集、传感器、算法库组成,根据开源证券发布的《动作捕捉:人形机器人数据采集利器》行业点评报告,能提供整套系统解决方案、有大量案例和数据积累、以及核心业务是传感器(IMU和力传感器)的企业有望充分受益。

国内已有不少企业进行动捕和机器人数采的业务布局。如奥飞娱乐投资的诺亦腾,与NVIDIA Isaac合作,实现了动作捕捉系统与NVIDIA Isaac Sim的数据联通,产品已用于智元机器人、千寻智能。

捷成股份投资的世优科技是一家基于惯性动捕技术的实时动画制作企业,惯导动捕已大量应用于数字人,具备丰富数据库积累,与北京大学共同成立“数字人训练联合实验室”。凌云光全资子公司元客视界推出了AI动捕产品FZmotion,已经服务宇树科技、优必选等客户。

利亚德旗下的虚拟动点拥有大量高品质动作数据和光学动作捕捉产品,与松延动力合作成立了“具身智能机器人联合实验室”。在马年春晚亮相的四家机器人企业中,虚拟动点出现在宇树科技、松延动力、银河通用三家的“朋友圈”里。

与人形机器人类似,目前的动作捕捉赛道在国内正处于大规模普及阶段,之前,动作捕捉的下游应用赛道主要集中在电影制作、游戏开发、医疗健康、教育培训等。中研网数据显示,2022年动态捕捉市场规模为58亿元。但由于人形机器人的数据采集需要,预计2027年带来的新增市场规模为500亿元。

这一数据是开源证券根据单个人形机器人本体企业使用1000台设备进行训练假设出来的。而随着2025年人形机器人的“量产元年”的到来以及2026年的产能扩充,相对应数采的市场需求或将比预测数量更为庞大。

瓶颈待破:动捕技术难跨结构壁垒?

由于人形机器人无法像人类一样理解什么是空间,以及人类自身动作无法用量化数据进行直接设定,因此数据就成为具身智能与传统AI的区别之一。

传统AI训练主要依靠图文,但具身智能需要深入地理解和交互物理世界,要像人类一样思考、运动,能精确地模仿人类动作是实现这一目标的重要路径。而相比于工业机器人仅具备处理单一或有限范围问题的能力,人形机器人需要面向更广泛、更多样任务,这就需要更广泛的3D数据集进行训练。

动作捕捉在过去两年快速发展,从之前的“动捕服+数据手套+头盔”有标记点的动捕方案逐渐开始向无标记动捕方案演进。

有标记动捕方案目前依赖有穿戴标记的光学系统进行空间定位的单一技术路径,无标记动捕,用户无需穿戴任何传感器设备或标记点,即可自由地进行动作捕捉和互动,设置简单快捷,降低了使用门槛,能极大地提升用户体验的自然度和沉浸感,不过缺陷也显而易见。

无标记动捕的数据精度、稳定性存在不足,往往受环境、光照遮挡以及算法自身的挑战,往往需要进行实时校准和修正,同时还有长时间运行的可靠性。

2025年3月,虚拟动点在2025年游戏开发者大会(GDC)上发布《无标记与光学融合动作捕捉解决方案》。

不论有标记动捕还是无标记动捕,在人形机器人的数据集采方面,仍有着大量的天然劣势。

首先是人体与机器人结构不兼容,动作不能直接用。人是柔性关节、肌肉驱动,机器人是刚性、电机驱动,关节数量、运动范围、重心完全不一样。动捕抓到的人体动作,直接迁移给机器人会失衡、关节超限、步态不稳,必须大量算法重映射,等于白采一半。

举个最简单的例子,最精密的灵巧手部件,在除大拇指之外的四个手指上,都只有一个关节,而无法像人手那样形成二次弯折,关节数量的不同使得机器人在做出持握动作时,动捕采集来的数据就需要进行大量的重定位和算法补正。

另外,动捕只能采集位置和行动轨迹,机器人还需要力控数据。动捕测不出机器人应该拿多重的东西时会触发力控保护机制,力矩调节、平衡调整这些数据。

此外,动捕采集数据较为呆板,只能复刻不能举一反三,更进一步增加了机器人采集的数据需求量,间接阻碍人形机器人投入大规模应用。

即便动捕技术仍有不足,但作为现阶段极具费效比的机器人数采利器,资本和市场或将迎来双重爆发。结构不兼容、力控数据、精度等方面的瓶颈都可以通过算法逐步填补,而且随着人形机器人相关技术的国标逐渐完善,机器人数采这一赛道也终将广泛受益。

作者 Wang