新媒体矩阵

全国首个具身数据采集5S店开业,中国移动正式布局数据采集

具身智能的行业竞争,早已经从模型架构的比拼,下沉到底层数据供给能力的较量。真实世界的数据越丰富、场景越多元,模型的泛化能力就越扎实。

湖南郴州的中国移动营业厅,最近多了一项新业务。

市民不办电话卡、装宽带,登记后能领一套机器人数据采集设备。经过短期培训,他们就能以“数采员”的身份在日常做家务的同时顺手完成采集数据,把真实家庭场景里的操作数据传给具身智能模型。

image.png

这是戴盟机器人和中国移动刚落地的合作——全球首个“具身数据采集5S店”试点基地,据介绍,7月15日将开启常态化运营,所谓5S,对应展示、培训、设备供给、售后、数据与场景协同五个功能,本质是把营业厅直接变成数据采集的线下入口。

众所周知,具身智能模型要练出足够的泛化能力,核心是喂饱真实环境里的交互数据。但行业长期卡在数据供给端,传统封闭式数采厂运营成本高,场景和任务高度固定,采出来的数据同质化严重,满足不了通用模型对复杂、多样、长尾场景的训练需求。

家庭作为最典型的非标准化场景,每家的物品摆放、光线条件、操作习惯都不一样,任务随时可能被打断,这种充满随机性的真实操作数据,恰恰是具身模型最稀缺的资源。戴盟的思路是把采集从固定工厂里“放出去”,延伸到家庭、制造、服务这些真实场景里,让模型接触到更接近现实的物理世界。

今年4月,戴盟发布了全球最大规模的含触觉多模态物理世界数据集Daimon-Infinity,搭起了外发式采集的基础体系。这次和中国移动联手,将依托中国移动几十万线下网点做支点,周边居民家庭做最小采集单元,满产状态下每年能产出100万小时数据。

放眼整个行业,解决数据缺口的路线大致分成两派。一派走仿真路线,靠虚拟环境生成海量数据压低采集成本。英伟达的Cosmos世界模型深度集成到Isaac Sim仿真平台,能批量生成训练场景;国内的某具身厂商靠十亿帧级的仿真合成数据预训练抓取模型,在复杂环境下实现了零样本真机泛化。

这条路效率高、成本可控,但短板也很明确,仿真和真实物理世界始终存在偏差,最终落地依然要靠真实数据做对齐。

另一派死磕真实场景数据,只是采集方式各有差异。智元机器人聚焦工业场景积累精细操作数据,星海图坚持真实数据路线打磨双系统模型,戴盟则走得更远,直接把采集终端铺到了普通家庭,靠众包模式拉低成本,同时保证数据的多样性和真实性。海外的Google DeepMind一边用Genie 2生成可交互3D场景补数据,一边也在收集真实机器人操作数据;OpenAI组建人形机器人团队,核心难题同样绕不开真实物理世界的数据供给。

据悉,此前中国移动链长基金已投资戴盟。本次5S店的启用,意味着双方的合作从资本、研发层面,正式延伸到了基础设施共建。

具身智能的行业竞争,早已经从模型架构的比拼,下沉到底层数据供给能力的较量。真实世界的数据越丰富、场景越多元,模型的泛化能力就越扎实。“数采进家庭”是一次新的尝试,这条路能不能跑通成本模型、保证数据质量,最终还要看规模化落地后的实际表现。

微信图片_2026-04-25_080029_572.png

评论 0