首页 / 科技 / 小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力

小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力

摸鱼不慌
摸鱼不慌管理员

今年6月,在美国丹佛举办的CVPR 2026具身智能基座模型部署研讨会上,小鹏集团通用智能中心负责人刘先明首次完整披露了世界模型的技术图谱。此次公开标志着这家车企在自动驾驶技术核心模块上的阶段性成果展示。

世界模型的三大核心能力

刘先明在研讨会上提出,优秀世界模型应具备三项能力:主动思考、可控生成和长时序推演。这三项能力被描述为将世界模型应用于自动驾驶的“前提条件”。

“主动思考、可控生成和长时序推演是优秀世界模型的三大核心能力,也是其应用于自动驾驶的前提条件。”——小鹏集团通用智能中心负责人刘先明,CVPR 2026研讨会

所谓“世界模型”,在自动驾驶语境下指能够模拟和理解现实世界物理规律、交通参与者行为以及环境动态变化的系统。其“主动思考”指模型能预先推演道路场景的可能发展,“可控生成”指生成场景的准确性可被调节,“长时序推演”则要求模型能预测数十秒甚至更长时间内的轨迹。

公开披露的技术图谱

本次披露的完整技术图谱,首次对外展示了小鹏在世界模型层面的架构设计。尽管具体参数和训练策略未在研讨会中详述,但图谱的公开披露标志着该技术从内部研发进入可对外讨论阶段。

  • 时间:今年6月(CVPR 2026举办期间)
  • 地点:美国丹佛
  • 主体:小鹏集团通用智能中心

业内人士指出,这一披露有助于行业了解小鹏在自动驾驶技术路径上的最新思考,也将推动世界模型在具身智能领域的标准化讨论。

小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力  第1张

小鹏研发团队上半年发布X-World等系列学术报告 聚焦可控生成与长时序推演

在全新小鹏P7推进过程中,小鹏汽车研发团队于今年上半年先后发表了X-World、X-Foresight、X-Cache等一系列学术报告。这些报告围绕可控生成与长时序推演两大方向展开系统性研究,表明小鹏在智能驾驶底层算法领域持续进行前沿探索。

何为可控生成与长时序推演?

可控生成(Controllable Generation)是指系统能够根据预设条件或输入指令,生成符合特定要求的输出结果,如轨迹预测或场景生成。长时序推演(Long-Horizon Reasoning)则是指对较长未来时间跨度内的序列事件进行建模与预测的能力。这两项技术是自动驾驶决策与规划中的关键底层能力。

学术系列布局

小鹏研发团队此次发布的X-World、X-Foresight、X-Cache等系列报告,分别针对不同的技术环节进行了针对性研究,共同构成了小鹏在可控生成与长时序推演方面的系统性研究框架。

“今年上半年,小鹏研发团队先后发表了X-World、X-Foresight、X-Cache等一系列学术报告,围绕可控生成与长时序推演展开系统性研究。”

上述学术报告的密集发布,意味着小鹏研发团队已在理论层面完成了初步的技术验证,有望为后续产品级功能的落地提供算法支撑。

小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力  第2张

小鹏集团发布X-Mind技术框架,引入预测性世界模型

近日,小鹏集团正式推出X-Mind技术框架,该框架通过内嵌预测性世界模型,将视觉思维链实例化,旨在解决自动驾驶领域认知推理与实时计算之间的长期矛盾。

传统方案局限:反应式映射缺失预判能力

在行业现有方案中,自动驾驶系统往往停留在“感知即行动”的反应式映射阶段,缺乏对物理世界时空演化的显式预测能力。这意味着车辆只能对当前感知到的场景做出即时反应,无法提前预判未来交通流的变化。

传统方法依赖实时传感器数据,在复杂交通环境下,突发变道、行人横穿等场景的应对能力存在天然短板。

X-Mind的创新:动作前进行“脑内推演”

X-Mind的关键突破在于,让模型在输出动作指令之前,先在内部执行高效的显式时空推演。这一过程将视觉思维链实例化,使车载智能体能够像经验丰富的老司机一样,提前推演交通参与者的运动趋势。

  • 预测性世界模型:指在系统中内置一个能够模拟物理世界未来状态变化的计算模块,使其在决策前即可预测多步演变。
  • 视觉思维链:将连续的视觉感知信息转化为逻辑推理步骤,形成从“看到”到“理解”再到“行动”的完整链路。

实际效果:防御性驾驶能力得到提升

基于这一机制,搭载X-Mind的车辆具备了更好的防御性驾驶能力——不是被动应对当前险情,而是主动预判并规避潜在风险。这对提升城市复杂路况下的行车安全性具有直接价值。

小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力  第3张

X-Mind驾驶模型详解:三项核心技术实现12帧未来推压缩至96Token

针对前车急刹、匝道汇入等复杂长尾场景,X-Mind驾驶模型通过提前推演障碍物占位和场景演变,使横向与纵向轨迹预测误差显著降低,安全性与合规性大幅提升。该模型推理效率已可支撑在车规级芯片上量产落地。

实验数据表明,X-Mind的图像生成质量远优于单步去噪方案,同时推理延迟几乎持平。

三项关键技术拆解

X-Mind包含三项关键技术,分别围绕认知画布、生成机制与决策透明性展开。

  • 思维草图:融合鸟瞰图布局与抽象驾驶先验的认知画布,采用深度压缩自编码器(一种将高维数据压缩为低维表示后重建的神经网络结构),将12帧未来世界推演压缩至仅96个Token(即数据表示的基本单元),避免高清纹理带来的计算瓶颈。
  • 递归块扩散机制:在大型驾驶模型的不同内部层中内化生成,通过单次前向传播即可完成高质量未来推演。
  • 思维链可视化:每一条规划路径均基于对障碍物占位和车道连通性的预判,使模型决策逻辑透明可解释。

实战效果:复杂场景下的预测与安全表现

在实际应用中,X-Mind能够提前推演障碍物占位和场景演变,其横向和纵向轨迹预测误差显著降低,同时安全性与合规性大幅提升。推理效率方面,该模型已可支持在车规级芯片上量产落地。

小鹏集团在CVPR 2026披露世界模型技术图谱 提出三大核心能力  第4张

小鹏披露物理AI基座模型技术体系 X-Mind等三大组件激活三大核心能力

在智能驾驶与人工智能技术加速融合的背景下,小鹏汽车近日公开其物理AI基座模型的技术架构。该体系由X-Mind、X-World与X-Foresight三大组件构成,共同驱动主动思考、可控生成和长时序推演三项核心能力。

三大组件定位与联动逻辑

X-MindX-WorldX-Foresight并非独立模块,而是小鹏物理AI基座模型中的协同组件。从字面逻辑拆解:X-Mind侧重认知推理(主动思考),X-World可理解为物理世界的模拟与生成(可控生成),X-Foresight则负责对未来状态进行长时序的预判。三者的关联构成了从“感知-决策-推演”的完整闭环。

该体系使AI不仅能够识别环境,更能基于物理规律自主生成行动方案,并预判长期后果。这一技术特征的实现,意味着模型具备了超越传统模式匹配的推理能力。

核心能力解析:主动思考、可控生成与长时序推演

主动思考指向模型无需外部触发即可自主分析场景;可控生成强调输出的行为策略可通过预设规则进行调节;长时序推演则体现模型对未来数秒至数分钟的状态进行预测的能力。三项能力相互支撑,为具身智能场景的落地提供了技术底座。

随着第二代VLA能力的持续提升,这一能力体系正加速向更广泛的具身智能场景延伸。

向具身智能延伸:VLA能力的迭代价值

“具身智能”字面指具备物理身体、能在三维环境中感知与行动的智能系统。当前小鹏物理AI基座模型已具备相关技术要素,而第二代VLA(视觉-语言-动作模型)能力的迭代升级,正将上述核心能力从驾驶场景向机器人、服务等更广泛的物理交互场景迁移。

业内人士指出,这一技术路径表明小鹏在AI领域的布局正从交通工具向更通用的智能体平台演进。不过,具体落地时间表及产品形态尚未披露。