人形机器人的“ChatGPT3.5时刻”尚需多久？硬件之后还有数据训练“大活”

作者：马赫环

量产加速、核心零部件国产化替代不断加深，目前人形机器人技术正处在多维度突破的过程中，业界也一直在期待着人形机器人的“ChatGPT3.5时刻”。

ChatGPT3.5版本于2022年底出现时虽不完美，却明确了通用人工智能（AGI）的发展方向，而春晚上人形机器人的动作虽然较一年前已经灵活不少，但距离人形机器人的“ChatGPT时刻”来临仍需要大量的真实数据训练以及算力和模型的突破。才能让人形机器人的发展迎来拐点。

有媒体报道，在博鳌亚洲论坛2026年年会期间，商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚乐观预测，最快2年内有望迎来人形机器人的“ChatGPT时刻”，而vivo机器人Lab首席科学家邵浩预判这一时刻的到来还需要10年，其实现关键在于找到低成本海量数据的获取路径。

过去两年中，业界对于人形机器人赛道的重点关注在于芯片、传感器、丝杠、减速器这些硬件层面，毕竟这些是构成人形机器人的基础，但在人形机器人量产能力不断得到提升的背景下，业界的关注重点开始放在了数据与模型领域。

自动驾驶：具身智能的数据标杆

2025年中，有很多汽车企业为发展第二增长曲线，选择将人形机器人作为新的业务拓展方向。不仅是由于新能源车企在硬件层面与人形机器人赛道较为接近，在数据和大模型方面同样如此。

历经了十余年发展的自动驾驶可以看作是一种已实现规模化部署的轮式具身智能形态，展现出了从专用自动化向通用自主性发展的趋势。凭借从严重依赖纯真机采集的静态数据，到仿真生成与真机验证结合的根本性转变，自动驾驶技术已经通过实践验证了物理实体如何通过持续环境交互与数据驱动的相关技术，而这就为通用具身智能提供了可资借鉴的宝贵经验。

在国际先进技术应用推进中心（深圳）于2026年3月发布的《具身智能数据行业研究白皮书》（以下简称“白皮书”）中，阐述了数据采集方式的变迁历程。

据白皮书介绍，高精地图是自动驾驶早期依赖的、典型的“静态真实数据”典范，其经验深刻揭示了纯真机采集模式的固有瓶颈。

在自动驾驶发展初期，车辆感知能力有限，无法满足高安全可靠性要求。早期感知算法在复杂光照、天气与路况下表现极不稳定，仅凭车载传感器难以实现厘米级精确定位与对环境要素的稳定感知。

在此背景下，高精地图作为一项关键技术，将“实时理解环境”的视觉问题转变为了“在已知地图定位”的相对简单问题，降低了对实时感知算法的依赖，使车企能够基于尚不成熟的感知系统快速搭建稳定的演示系统，加速技术早期落地。

但白皮书同时提到，高精地图的应用也带来了技术路径依赖的隐患。同时由于道路环境的频繁变化（包括施工、改道、路标指示等）、依赖高精地图的自动驾驶车辆只能在已测绘区域运行以及长期依赖地图提供的明确规划指令或削弱感知系统攻克复杂场景能力等原因，高精地图这一早期自动驾驶利器最终因规模化成本与能力限制而被重新评估。

静态的数据不行，只有使用动态数据模式。为破解困局，自动驾驶行业转向使用由众包车辆自动生成的轻量化地图，利用海量装备普通传感器的产线车辆在日常行驶中实时回传变化信息，经云端融合处理后，以低成本、高效率实现地图的动态更新。

这一转变的本质是将数据采集从生产活动，转变为嵌入到大规模日常应用中的“影子模式”，实时追踪人类驾驶员行为，形成模型训练与反馈的闭环。

相关分析认为，具身智能要吸取自动驾驶早期依赖高精地图的方式，不能仅依赖实验室或工厂预采的固定数据集，而是要将智能体现在对未知环境的适应。

也就是在具身智能的应用中，构建与自动驾驶类似的“影子模式”，生成一套动态、闭环数据采集系统，这将为具身智能破解规模化载体不足的困局提供关键思路。

时长、有效性、场景建设 具身智能的数据问题远比自动驾驶复杂

事实上，具身智能赛道已经开始走自动驾驶的这套数据采集和训练路子，但是由于具身智能的链条更长、约束更多、变量更复杂，因此在数据和训练上仍存在明显不足。

首先是数据采集时间短，数据训练时间严重不足。博鳌亚洲论坛2026年年会期间，王晓刚指出，当前行业机器人训练数据仅达10万小时量级，远低于自动驾驶领域的百万小时级。传统“以机器为中心”的数据采集模式效率低下，应转向“以人为中心”的环境式采集，结合仿真训练与世界模型，让机器人习得更自然的拟人行为。

有报道称，有与会者提出建议，让保洁阿姨、产线工人等在正常工作中，通过穿戴传感器完成真实行为数据采集，无需额外投入成本。

其次，数据量也只是一方面，数据的有效性也不容忽视。

白皮书显示，与自然语言处理领域“模型即产品”的路线不同，当VLA模型的参数规模从7B扩张到更大的量级后，能力增长并未如预期般持续涌现，反而呈现出了“边际递减”的上限。然而这种能力上限并非单纯由模型架构决定。

VLA模型即Vision-Language-Action Model，视觉-语言-动作模型，被认为是自动驾驶和具身智能领域的核心技术方向之一。是将视觉感知、自然语言理解与动作控制统一到同一框架的端到端人工智能模型，旨在实现从环境感知到行为执行的完整闭环。

a16z的深度洞察指出，实验室里95%成功率的策略，一旦进入真实仓库，光照、背景、视角、物体材质发生变化，成功率可能迅速跌到60%。

同时，从商业投资的角度上来说，通过交互设备对远程机器或系统的实时控制技术（即“遥操作”）进行场景数据采集，投资巨大，回报周期长，且商业收益不明确，目前主要客户都深度绑定于人形机器人企业，在当前人形机器人企业尚未形成成熟的商业生态以前，数据采集和训练单靠单纯依靠商业公司难以独立完成。

在此背景下，国内各地政府积极支持和参与，比如北京石景山区的国内最大人形机器人训练场、上海国家地方共建人形机器人创新中心打造的“麒麟”具身智能训练场、天津的帕西尼具身智能超级数据工厂，以及杭州、成都、宁波等地均有相关人形机器人试验场落地，白皮书的不完全统计显示，国内已建成或计划在建的具身智能训练场达到20余家，其中公开披露的10家训练场总面积超过4万平方米。

这两年资金都在向具身智能赛道聚集，但从数据采集和训练的难点可以看出，其距离应用与商业化生态建立是个“大活”，最大的成本就是时间，最大的利好也是时间，在这个只能日积月累才能搭建的高科技赛道中，面对数据采集和训练的难关，需要双管齐下。

一方面是形成开源的数据集和模型平台，打破企业各自为战的数据孤岛状态，另一个是参考ChatGPT“数据-模型-反馈”闭环迭代的飞轮效应，形成“数据共享-模型优化-场景反馈”的正向效应。

当然，国内机器人企业也不断在数据和模型领域发力，弥补这一短板。大象投资顾问发布的《人形机器人行业研究报告》在梳理国内外重点机器人企业时就指出，智元机器人坚持开源数据集(AgiBotWorld)，通过“数据驱动”来加速机器人的进化。乐聚机器人为国内首家搭载开源鸿蒙（OpenHarmony）的人形机器人企业，（通过绑定国产操作系统生态）解决了数据安全和底层协同问题。

GPLP科技说

人形机器人的“ChatGPT3.5时刻”尚需多久？硬件之后还有数据训练“大活”

作者Wang

作者 Wang

相关文章

增速放缓隐忧浮现监管加码：招聘赛道站上洗牌十字路口

万台产线落地万台销量破局 2026年人形机器人从春晚舞台走向产业深水区

2025年云厂商大考从成长叙事转向盈利叙事

You missed

2025年增收不增利的新氧“医美山姆梦”还能做多久？

从全球代工榜首到净亏损7.84亿元冠捷科技怎么啦？

万兴科技亏损迷局：AI转型难充饥 Adobe与字节夹击围剿？

人形机器人“最后一块感知拼图”：92 亿市场五大技术路线混战

GPLP科技说