起底大模型：拆解李飞飞的三类世界模型产品，看懂AI下一个万亿赛道

纪源资本·2026年06月22日 11:29

大家都在构建属于自己的“小世界模型”。

如果说过去三年AI行业最重要的关键词是“大语言模型（LLM）”，那么进入2026年后，另一个词开始频繁出现在投资机构、机器人公司和科技媒体的标题里——世界模型（World Model）。

最近‌斯坦福大学教授、AI领域知名科学家，World Labs创始人李飞飞发表了一篇长文，对世界模型进行了定义和系统分类。

世界模型已经从技术概念变成了融资概念。这个概念看似新，实际上正在从事世界模型相关研发的人却已经很多，而且推出了成熟产品。

为什么世界模型概念

在2026年突然爆火？

早在强化学习和机器人研究领域，“世界模型”就已经存在了很多年。

最近一年，它成为了资本市场和产业界追逐的热点。甚至有投资人认为，世界模型的重要性，未来很可能不亚于今天的大语言模型，与看清和预测物理世界运行规律的世界模型相比，大语言模型都显得“悬浮”了。

其实世界模型突然爆火的原因，恰恰来自大语言模型的成功。

2023年前后，不少人相信，只要继续增加数据量、算力和参数规模，Chat GPT这样的模型最终就能走向通用人工智能（AGI）。但到了2025年，人们发现了一个越来越明显的问题：大语言模型确实越来越聪明，却始终存在某种天花板。

天花板在哪？我们运用人工智能写文章、做总结，通过海量知识完成了复杂推理。但当问题涉及真实世界的空间、物理和运动规律时，人工智能似乎就有点不可靠。

问题很可能在于：“人工智能”缺少对现实世界的理解能力。

此时我们需要的是所谓的“空间智能”（Spatial Intelligence），而世界模型则被视为实现空间智能的重要路径之一。

世界模型可以被理解为AI脑海中的“现实世界模拟器”。一个小孩看到杯子放在桌边，即使杯子还没有掉下去，也大概知道杯子很可能会掉落；掉到地上可能会摔碎，里面装着水，水还会洒出来。

这种根据当前状态预测未来结果的能力，对现实世界运行规律的理解就是智能的表现。世界模型所做的，正是学习这种关于空间、时间、运动和因果关系的规律。

近期李飞飞和World Labs团队发表的长文对世界模型进行了定义与解释，提出了她所认为的世界模型三类产品形态：

第一类是“渲染器”（Renderer），最擅长回答的问题是：世界长什么样？

今天大家熟悉的AI视频生成模型，基本就属于这一类。用户输入一句文字，系统就能生成电影级别的视频画面。从视觉效果来看，它们已经非常惊艳，甚至能够达到以假乱真的程度。

但问题在于，这些模型理解的是“看起来是什么”，而不一定是“实际上是什么”。一个AI生成的城市航拍镜头或许无比真实，但如果真的让汽车在其中行驶，建筑结构可能会立刻暴露问题。因为模型关注的是视觉合理性，而不是物理合理性。

第二类是“模拟器”（Simulator），关注的则是世界的底层结构。

模拟器所输出的不只是画面，而是几何、物理和动力学层面的状态信息。对于建筑师、设计师、游戏开发者而言，这意味着可以进行真实计算；对于机器人和自动驾驶系统而言，则意味着能够在虚拟环境中训练和测试。

例如，一座桥梁是否会变形，一个机器人是否会撞上障碍物，一辆汽车在不同天气下会如何行驶等问题都可以被模拟器解决。

第三类则是“规划器”（Planner），关注的问题不再是世界长什么样，也不是世界如何运行，而是：我们下一步该做什么？

对于机器人来说，它需要决定下一步应该向前走、向左转还是伸手抓取；对于自动驾驶系统来说，它需要判断何时刹车、何时变道、何时超车。

规划器的输出是行动本身，因此它也是连接感知与行动的重要环节。

而与“世界模型”形成鲜明对比的“大语言模型”是无法解决空间智能相关问题的。还是以小孩看到杯子放在桌边的场景为例，我们可以询问大语言模型并要求它进行预测，它的结论可能是正确的，例如杯子会掉落，水会洒，而这个回答只源于它背后的数据与训练，只源于它可以在多次训练中被教会了这个结果。

大语言模型所学到的只是文本之间的统计规律。

而物理世界中，究竟会发生什么？世界模型试图做到的便是时空之间的统计规律。

当一个玻璃杯从桌边掉落时，大语言模型可能会根据过去见过的大量文本经验回答“杯子会摔碎”；而世界模型则会在内部模拟杯子的材质、重量、速度、受力情况以及碰撞过程，再推导出最终结果。

前者更接近统计推断，后者更接近物理模拟。

还有很多研究者开始将两者分别称为“语言智能”（Language Intelligence）和“物理智能”（Physical Intelligence）。它们的关系不是竞争，无法相互替代，更像是一种平行。

李飞飞在文章结尾说：“语言让机器能够谈论世界，世界模型将让机器最终能够理解、想象、推理并与世界互动。”

大语言模型帮助AI进入了数字世界，那么世界模型试图打开的，则是现实世界的大门。

世界模型早已出现，

却在如今才被定义？

想要推动空间智能与世界模型，并不那么简单。

如“水杯洒水”案例里若需要构建世界模型，就必须模拟杯子的材质、重量、速度、受力情况以及碰撞过程，但这些物理世界真实的数据，并没有完全被记录到计算机世界。

没有足够的数据，就无法模拟杯子里的水如何流动。所以这条路任重而道远。

不过，人类并非刚刚着手。

在李飞飞重新定义“世界模型”之前，人类早就在做类似的事情了。换句话说，世界模型这个概念之所以在今天引发巨大讨论，并不是因为它突然被发明出来，而是因为许多原本分散在不同产业、不同学科里的能力，第一次被放进了同一个框架里讨论。

李飞飞这篇文章最大的贡献是给这些原本互不相干的技术路线提供了一套统一分类方法。按照李飞飞的定义，建立世界状态、预测未来状态、推演行动后果的过程，本质上就属于世界模型的范畴。

很多从业者都会调侃：“我们模拟世界几十年，现在AI圈终于看到我们的价值了。”

例如工程仿真软件帮助企业进行流体模拟、飞机模拟、发动机模拟和结构分析。飞机起飞时机翼会不会变形，发动机在极端温度下会不会失效，桥梁在强风中能否保持稳定，不在计算机里先模拟一遍就根本无法研发产品。

数字孪生领域也是如此，它们构建虚拟工厂、虚拟城市和虚拟生产线。

区别在于，过去的模拟器高度依赖人工建模，工程师需要手动输入建筑尺寸、机械结构、材料参数以及各种物理规则，然后一点一点构建出一个数字世界。

而今天AI试图做的事情则不同，也许只需要拍摄一段视频，模型便能够自动生成一个具备几何结构和物理属性的三维空间。也因此，许多投资机构开始关注世界模型，真正的新东西并不是模拟本身，而是AI开始接管模拟过程。

李飞飞定义中的“渲染器”甚至可以说是一个成熟产业了。人们熟悉的Midjourney、Sora、Veo等产品，本质上都属于渲染器。它们擅长回答“世界看起来是什么样子”这个问题。从效果来看，它们成熟到足以让普通用户分不清哪些画面来自现实，哪些画面来自AI生成。

不过，按照李飞飞的分类，渲染器存在着天然局限：它解决的是“看起来像”的问题，而不一定理解“实际上是什么”。美轮美奂的AI城市，建筑物之间的空间关系可能不合理，物理规则也许未必成立。

李飞飞在文章中不断强调模拟器的重要性。因为对于机器人、自动驾驶和工业系统而言，仅仅拥有视觉真实感远远不够，它们需要的是一个能够被计算、被推演、被验证的世界。

至于规划器，同样不是什么新鲜事物。机器人行业已经研究规划问题很多年，例如特斯拉的人形机器人Optimus，当它通过摄像头看到一个杯子时，需要决定下一步是向前一步、伸出右手还是调整身体重心。

自动驾驶领域更是如此，每家车厂都投入重金进行研发，预测前车会不会刹车、行人会不会突然横穿马路、自行车是否会变道，然后决定自己下一步应该如何行动。

过去几十年里，游戏行业、航空工业、自动驾驶、机器人、建筑行业、军工领域、天气预报，每个领域有自己的模拟器。

大家都在构建属于自己的“小世界模型”。

而如今，空间智能或许能够让更多数据被储存和被链接。每个领域都需要理解空间和物理规律，背后或许共享着同一种底层能力。

也许真的能够有一个理想化的模型，能够预测物理变化和推演行动，既能为机器人提供训练环境，又能为自动驾驶提供测试平台，还能服务于游戏、建筑和工业设计。

咱们再从学术角度说说与世界模型相关的研究。

前面提到了天气预报有自己的模拟器，实际上，流体力学就是研究世界规律的典型案例。

在给定的压力、温度和边界条件下，流体力学科学家预测空气会如何流动；在给定的河流流速和地形条件下，流体力学科学家会预测洪水将如何扩散。没有自己的“世界模型”，天气预报根本无从下手。

天体力学也类似，在知晓太阳、地球和月球的位置与速度的情况下，科学家就能推算未来几十年甚至几百年的运行轨迹。

不过，这些学科与今天的世界模型最大的区别在于方法，前者是依靠人类编写的方程，这些方程又来自于科学家通过数百年的研究的总结。而今天的世界模型则是反过来，不是由人类告诉机器世界如何运转，而是让机器自己从海量数据中学习规律。

世界模型会让谁“吃到蛋糕”？

在“互联网＋时代”，制造业、物流、建筑、能源、医疗、交通，这些行业本身的巨大体量，被互联网的力量赋能，一定会产生巨大产值。

而这些行业有一个共同特点：所有活动都发生在真实世界里。

世界模型试图解决的便是它们所遇到的问题。

这也是为什么资本市场突然对世界模型表现出前所未有的兴趣：一个聊天机器人帮企业节约20%的文案成本，当然是好事；但如果一个机器人能够让仓储效率提升20%，或者让工厂生产效率提高20%呢？省下的或许就是数十亿甚至数百亿美元。

过去，一家大型工厂如果想建立自己的“世界模型”（当然，它们彼时还叫做“数字孪生系统”），往往需要大量工程师花费数月时间自己去测绘、建模和参数录入。未来，如果世界模型真正推出，也许会有更为完整和准确的三维工厂。

管理者可以在虚拟空间中一次次提前模拟生产线调整、设备故障、火灾事故甚至扩建方案，而不需要在真实工厂中反复试错。

所以，工业软件公司来说，世界模型本身意味着巨大的机会。

紧接着受益的还有机器人产业。

机器人最大的成本并不是硬件，而是训练。一个机器人为了举起一个杯子经过了无数次的尝试，获取着杯子在哪里、重量有多大、摩擦力是多少、手臂应该施加多大力量的数据，避免水洒出，而机器人公司要做的就是构建世界模型并且训练数据。

投“世界模型”概念的投资机构，很多直接投了机器人，就因为这种“专业对口”。

还有一群重要的世界模型构建者，是自动驾驶企业。它们投入了大量成本进行道路测试，其实便是学着预测交通。

不过有意思的是，李飞飞在文章中写到，渲染器、模拟器、规划器最终可能汇聚到一起，而她首次作为创始人所创办的World Labs是这样尝试的。她的产品Marble不是唯一的世界模型产品，但它是少数把“空间智能”作为核心卖点的商业产品。

而很多早已聚焦自己领域“世界模型”构建的从业者，则是从自己的小世界出发，他们是否赞同渲染器、模拟器、规划器未来终将一体化，他们如何定义未来的空间智能，我们还无从而知。

但有个结论很明确：如果说第一代AI赚的是信息世界的钱，第二代AI赚的很可能就是物理世界的钱。

本文来自微信公众号“纪源资本”，作者：纪源资本，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

起底大模型：拆解李飞飞的三类世界模型产品，看懂AI下一个万亿赛道

最近内容

下一篇