X-Era Lab首席科学家王可泽:在500万次真实交互中,攀登物理AGI那座高峰
文|张果
2022年的一个普通午后,在无数人尚未觉察的角落,世界动作模型第一次悄然睁开了它的眼睛。
它第一次“看到”的,不是实验室里擦拭干净的理想场景,而是一个真实的、动态的无人货柜:玻璃门被推开合上,手在货架间进进出出,瓶罐被抓起、挪动、放回,偶尔磕碰出一连串细微的形变和晃动。
对它来说,真正要学会的不是“认出一瓶饮料叫雪碧”,而是从这些拥挤而嘈杂的细节里,理解这里面隐含的物理变化和规律——什么在动、为什么动、下一步可能会发生什么。
那一刻,对正盯着屏幕数据的X-Era Lab(拓元智慧)首席科学家王可泽来说是一个很明确的转折点。这不是静态图片,也不是摆拍的数字标本,而是真实世界正在震颤的、带着因果链条的物理演化。这一次,他们清晰地意识到,解决非常底层、非常硬核问题的时代,已经醒来了。
X-Era Lab从创业之初,就选择了一条少有人走的路径——做物理AGI的世界动作模型。简单来说,这是一个物理基座模型,在给定动作前提和预测环境之后,能预测后面一系列的物理过程、动作以及各种反馈的通用模型。在X-Era Lab发布世界动作模型基模训练范式半年后,英伟达发布了思路高度同源的DreamZero。
做世界模型在当下也已经是共识,没形成共识的是,到底要用怎样的数据去训练模型?X-Era Lab的答案是:它们一定来自于真实世界,哪怕这些数据显得不干净、不标准、充满噪音和长尾事件。
这种坚持,让它的世界动作模型成为当下少有的、可在真实场景中落地,并且实现迁移和泛化的物理模型。据36氪了解,X-Era Lab的模型已落地零售、工业等各个场景,准备赋能千行百业、不同形态的机器人。
当下,具身智能行业已经走入深水区,越来越多的人意识到,大脑成为制约具身智能实现通用的关键卡点。和语言大模型不同,具身数据必须靠主动采集和设计场景获得,每一家公司都要找到自己的数据训练范式。
在这之中,有公司偏好拟真、有公司选择人力数采工厂,而X-Era Lab选择到生活中去,做“实现物理AGI的世界动作模型”。这条道路没有捷径,也更加漫长,但只有从这一个个细碎而真实的场景中,才能长出真正意义上的物理AGI。
当下细分赛道的机器人正在放量,就算搭载大脑的机器人只有千台,收入也能迈向数亿规模。当所有人在质疑世界模型落地遥不可及时,已经在海浪中搏击的玩家正在给出答案。
正在接受访谈的王可泽博士
具身智能的喧嚣里,X-Era Lab是少数把三个闭环都跑通的公司:模型闭环,让世界动作模型在感知—预测—控制上自成一体;数据闭环,让真实业务每天把4D数据回流进模型;商业闭环,让算法直接变成收入,再反哺迭代。三环咬合成一只飞轮——而这只飞轮上,它同时坐着两个“最”:世界模型算法收入最高,4D真实数据采集量最丰富。
以下是36氪和王可泽对谈,对话经过编辑:
通用物理基座模型,到底是什么样的?
36氪:世界模型现在路线比较混乱,X-Era Lab是怎么梳理这件事的?你们又是怎么定义的?
王可泽:我们一开始是尝试想清楚:在具身智能领域,最终的通用智能底座,它的终点是什么。发现现在底座的演进,变成了在大模型上不停地加外挂去适配各种场景。到了具身智能也是加外挂,但我个人感觉这不是真正的终局,它是以传统大模型为外衣套上一个壳子,很多时候停留在论文指标和仿真环境里,离工业界很远。
所以我们当时觉得,应该专门打造一个真正以世界动作模型为内核的东西:从视觉、语言等多样的模态,到后面动作、物理的作用和状态的演化——从预测下一个Token,变成真的去预测下一个状态。
36氪:具体来说,你们的模型是如何运作的?
王可泽:我们把整个技术路线都转向世界动作模型,所有设计都从原生角度出发:在给定动作前提和预测环境之后,去预测后面一系列的物理过程、动作以及各种反馈。
这几年,我们随着应用边界让技术不停往前走:从最开始很单一的室内零售和移动抓取场景,到后面多形态的机器人、多种复杂环境,以及更强的泛化和可迁移性。
36氪:所以你们是怎么做这件事的?
王可泽:我们不是一个从开始就在讲世界模型故事的团队,而是在各种真实场景里反复打磨,构建我们的世界动作模型。随着舆论风口转变,我们内部也越来越确认:经过了压力还能长期坚持做出来的东西,才是真正的具身智能底座模型。
36氪:那你们到底怎么看待VLA?
王可泽:我们发现VLA有明显的局限性,VLA是一个重要的阶段性路线,适合快速验证和任务适配,但我们认为它不是物理AGI的终局。去年我印象很深,几乎全行业都在讲VLA,尤其是做机器人本体的、融资路演的。
对我们来说,不是看不见这个趋势,而是我们认为VLA不是终局——你可以把它包装成一个有“世界”味道的系统,但并没有真正解决我们的问题。我们可能有一点技术洁癖,别人顺的是舆论的风,我们顺的是技术的风——看着我们在逆风,其实风一直在我们这边。
36氪:你们为什么能如此笃定,自己走在正确的道路上?
王可泽:在这种噪音下,坚定选择一条难而正确的技术路线尤其难,因为很多团队需要融资,估值到了一定阶段,需要不断给出新的亮点、新的成果、新的Milestone。在物理AGI这个赛道,模型的整体框架决定了上限,而数据和工程决定了你能走多快、多远。框架没选对,再多demo和花活也很难持续堆上去。所以我们认为我们的春天来了:解决非常底层、非常硬核问题的时代来了。
Demo是盖给别人看的外立面,而架构是埋在地下的地基;没人会为地基鼓掌,可一栋楼能立多高,全看它埋得有多深。
36氪:在做物理通用底座模型之中,最难的是哪一步?
王可泽:卡得最久的还是策略这部分,也就是在真实的三维空间里学习交互策略,把物理、几何和动作做联合建模。让模型脑子里一开始就是真正物理几何的思维去看、去操作、去规划,这天然就难。所以我们卡点比较多,要不停试探,尤其要解决模型训练不收敛的问题。这倒不是学术理论的问题,而是真实训练过程中的问题。
在千卡级GPU集群上,我们完成了世界动作模型的通用预训练。以海量真实世界的4D时空点云为载体,3D点云、时间演化、交互轨迹三者合一,模型从几何、语义、姿态、动态四个维度,提取出通用的世界状态表征,并由此习得物理世界的运行规律。千卡集群带来的,不只是更大的数据吞吐,更是让模型在统一的4D+X表征中,把“看见世界”与“理解物理”真正合为一体——用最新的算力,去教机器一件最古老的事:世界是怎么运转的。
36氪:在你看来,目前你们团队做过的工作里,哪些算是比较有代表性、对行业认知带来一些改变的?
王可泽:我们最近做的,其实不是某一个孤立的工作,而是一条比较完整的技术线:围绕原生世界动作模型,去更好地预测“下一秒物理世界会怎样”。
在这条线上,你会看到我们反复在做同一件事:用统一的物理几何Backbone来同时承载“世界状态”和“机器人动作”,尽量避免预训练目标和控制目标之间的错位。为什么要这么做?可以类比语言模型:对语言模型来说,预训练目标和使用目标高度一致——训练时预测下一个token,使用时也是生成token,所以只要持续把数据、模型、算力做大,语言能力就会比较稳定地往上走。
而在具身智能里,如果预训练阶段主要在做图像到语言、视频到视频,而控制阶段却要输出动作轨迹,中间其实是断了一层。我们的判断是:这层断档必须在预训练这一级“重新对齐”,所以我们设计了一系列原生世界动作模型的工作,让模型从一开始就学4D轨迹和物理后果,而不是事后再贴一个action头。
这条线里有不少具体成果,其中有一项近期拿到了2026 CVPR的奖项,评审的理由一方面是计算过程足够透明、可复现性强,另一方面也从侧面印证了我们这套“原生世界动作模型”的思路在真实物理场景中是跑通了的。
找到那个数据飞轮
36氪:现在很明显的趋势是大厂都在下场做世界模型。你们怎么跟大厂竞争?
王可泽:我们不太靠“堆人、堆算力”跟大厂硬拼,我们的优势主要有两块。
第一,是持续的架构创新能力。具身智能是一条非常全栈、链路很长的赛道,从预训练、中训练到后训练,每一环都要有人真正从第一性原理去思考“这个模块应该怎么设计”。我们这支团队本身就是科研味很重的团队:有做世界模型和4D表征的,有做有理函数网络和物理因果的,也有深度参与后训练和软硬协同的。我们的共识是——不要把现成的大模型往机器人身上“硬焊”,而是坚持在模型架构上做前沿探索,让这个世界动作模型一开始就在设计层面适配物理世界。
第二,是让模型在真实业务场景里反复迭代。我们的数据跟大厂采买的数据完全不同,我们是业务里真实回流的自然数据,所以我们的模型在真实世界的交互中成长,而不是在实验室里闭门造车。我们内部把我们的数据称作“4D+X”。
更关键的是,这些数据和我们自己设计的世界动作模型架构是匹配的——数据来自真实世界的物理交互,我们的模型结构本身也是围绕真实物理世界的4D轨迹去建模的,两者是对得上的。这样一来,模型能力每迭代一轮,马上就能在商业场景里体现出来;商业场景又会反过来源源不断地喂给模型更丰富的长尾数据,逐步强化底座能力,最后形成一个别人很难复制的数据–模型–业务的正反馈闭环。
36氪:4D+X数据是什么意思?具体来说和普通数据的区别是什么?
王可泽:拆解一下,4D+X数据由两部分构成:4D时空数据加一系列数据。4D数据从哪来?我们在探索物理AGI的过程中,最早把世界模型用到了零售场景,去理解空间信息和空间里人机交互的状态。这里面4D又拆成3D加1D:3D是静态空间里的点,1D是时序的变化,加了一个时间维度。这是空间几何里的4D数据。但只有这些还不够——我们要去工厂里打螺丝、要在物理世界里干活,所以又加了多种数据:一部分是接触传感器数据,比如触觉、摩擦力这些传感器数据;另一部分是语言标注的文本。
“演”出来的仿真轨迹,喂不饱真正的大脑。物理模型必须去嘈杂的产线、去充满噪音的现实中长出肉身。
4D时空数据的表征示意图
36氪:你们的数据如何形成正反馈哺育模型?
王可泽:我们每天都有真实业务的数据回流到整体的数据飞轮里。给一个量级的概念:我们的智能货柜,每天会有几万个小时的数据回流到数据管线里来。我们现在训练的数据规模也在朝百万小时的量级走。很多人也在讲百万小时,但我们的百万小时里,都是在真实场景里采集的4D+X数据,这个差异非常大。
别人还在采数据,我们已经在生产数据了。我们收集回来的这些数据有个名字,叫“人类的富交互数据”。我们在真实业务场景业务中已经积累了数千万小时富人类交互的数据资产,其中用以预训练的数据达数百万。这些能够很好地支撑我们提取前期需要的4D数据。
当然,要实现AGI还需要补充大量不同场景的数据,所以我们也会补充一些互联网的Human-centric数据和Ego数据。
36氪:当有了足够多的真实数据后,你们对世界模型的认知是否有变化?
王可泽:有了真实数据,我们才能质疑现有架构:人操控物体的数据,模型为什么学不会?那明显是架构问题。
真实业务系统跑起来后我们发现,每一次任务成功、失败、人工接管、客户反馈,都不是孤立事件,而是模型进化的燃料。那一刻我们意识到,创业公司最大的壁垒可能不只是算法,而是能不能构建一个持续产生高质量真实世界数据的业务闭环。这也是我们今天说“从真实世界中长出来的物理世界模型”的原因。它不是实验室里封闭训练出来的模型,而是在真实空间、真实任务、真实反馈和真实商业价值中不断生长出来的模型。
你喂它干净的样本,它学会的是表演;你喂它真实的混乱,它学会的才是生存。
GPT时刻前夜,首先找到落地场景
36氪:大家都在提“ChatGPT时刻”,你觉得我们到底走到哪一步了?
王可泽:具身智能一定要有自己的底座模型,这样才能真正迎来下一个GPT时刻。此外,我们对技术本身有近乎朴素的信任。不是先去想怎么讲一个更大的故事,而是先想这个问题到底有没有被真正解决;不是先迎合市场上最热的路线,而是反复问自己,哪一条路更接近物理世界的本质。很多时候,这条路不会最热闹,也不会最容易被理解,但如果真实场景持续给我们反馈,我们就愿意沿着它继续走下去。
从团队的总体共识来看,物理AGI现在到了“GPT-2.0到3.0”的阶段。一年前看这件事觉得很早,但数据的爆发和模型的提升不是线性的增长,是指数级的增长,所以时间可能还会不断提速。
36氪:在这个阶段,其实乱象也很多,你自己观察到的泡沫是什么样的?
王可泽:首先是数据的角度,大量的数采中心遍布全国各地,但刻意的操作是不丰富、不多样、也不真实的。而我们的数据配方里,机器本体数据的比例非常低,只有5%需要后训练。只要Few Shots就可以闭环。
其次,数据上去之后,更大的问题是架构不行。目前普遍的VLA架构,泛化性明显太差,围绕它打再多补丁也于事无补,必须围绕物理基座模型去做架构。而我们底座模型足够好,后续部署和适配能以非常低的成本完成,显著优于友商。
最后,从产业角度看,现在的Demo过于营销化。物理AGI机器人在物理世界能干的事,还远没达到宣传的程度。
36氪:现在你们的世界模型,主要落地在哪些真实行业场景里?
王可泽:真正的智能系统,如果要在现实世界里工作,就必须从这些复杂数据中学习,而不是只在理想环境里学习。这也是我们为什么强调“从真实业务数据中长出来”。
我们的模型已经长期部署在无人零售场景,每天承载和优化的真实服务次数接近500万次,在“世界模型赋能零售”这个方向上已经走到行业的绝对头部。
同时,我们正在把这套世界动作模型应用到更多半结构化的真实场景中,一端连接线下零售,另一端逐步延伸到工业场景,比如各类上下料、分拣搬运、线束插拔等,用同一套世界动作模型去打通。能够真正把传统行业拉出一个数量级差距的,不是“干净的数据集模型考试”,而是模型在真实业务里的长期实战和迭代。
36氪:落地工业已经是行业共识,你们是怎样的策略?
王可泽:我们的策略是做“N+1”与寻找Sweet Spot:不重新定义生产环境,只解决末端需要具身智能处理的一小部分任务(如SKU、材质、光线千变万化导致传统协作机器人无法胜任的上下料环节),再规模化复制。
由于模型上限与泛化能力仍有差距,所以我们工业切入选择制造行业的Sweet Spot,避免不切实际的过度承诺。
36氪:在工业上,你们落地了哪些场景?
王可泽:我们已落地了分拣搬运、上下料、线束插拔装配等场景,今年团队很兴奋:不光在技术上有了Aha Moment,我们在商业阶段也实现了阶段性的泛化,以两三倍的速度成长。经历了前期的探索和寒窗苦读之后,我确定我们迎来了一个阶段性的爆发。
服务产业POC的渲染图
做物理AGI时代的机器人大脑
36氪:你认为X-Era Lab区别于国内外顶级具身团队的基因是什么?
王可泽:我们的基因是一支科学家团队,但也是一群既懂技术又能搞落地的团队。我们扎根在大湾区,不仅和欧美名校的顶尖科学家们一起搞研发,核心成员还都是从华为、商汤出来的,会去无限追求模型智能的涌现,以及架构上的创新。但物理AGI跟数字AGI不太一样,它还比较早期,很多环节都没有收敛,所以我们要自己去做应用和闭环。我们在不断追求模型上限、追求智能涌现的过程中,还是要进入场景,自己做端到端的解决方案和闭环,来做模型的后训练。
所以,我们培养年轻人,最重要的是让他们尽早进入真实问题。我们希望他们能看到真实产业是怎么运转的:客户为什么付费、系统为什么失败、数据为什么有价值、模型最终如何被业务指标验证。我们创始人从很开始就特别强调“一日为师,终身为友”,希望我们站在真理这一边,而不是站在等级那一边,这也是我们能坚持到现在的原因。
这也是我们团队最大的特色:背后有很强研发与创新源泉、有天花板,但也足够扎实、能落地、能“扎到泥土里”,“仰望星空,脚踏实地”。
物理AGI的终局,是一场数字智能对物质世界的全面重构。X-Era Lab正在用最硬核的底层框架,为千行百业的机器人编织一颗能读懂物理因果的大脑。真正让X-Era Lab站得更远的,从来不是某一款模型,而是它身后那座源源不断的研发储备——既扎在最底层的原理,深入最嘈杂的现实,又始终顶在最前沿的无人区,才是这家公司穿越周期的护城河。从无人货柜的微观碰撞,到产线上千变万化的复杂POC场景,那些曾让传统自动化折戟的难题,正被逐一解构。未来,当千万台搭载着通用物理基座模型的机器人走向工厂、走向千家万户,它们睁开眼看到的将是整片星辰大海。
本文来自微信公众号“36氪”,36氪经授权发布。















