首页 / 科技 / 郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA

郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA

摸鱼不慌
摸鱼不慌管理员
郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA  第1张

6月举行的北京智源大会上,具身智能技术路线之争成为讨论焦点。智平方创始人兼CEO郭彦东博士在具身产业CEO论坛开场主旨演讲中提出,世界模型不应被视为VLA(视觉-语言-动作模型)的对立选项,而是后者的核心组成部分。

重新界定VLA与世界模型的关系

郭彦东从生命演化视角切入,指出感知环境并理解环境是先于行动产生的环节。世界模型承担理解世界的任务,VLA则负责作用于世界,两者是统一整体。

他对VLA给出新定义:多种模态融合、大数据驱动的端到端模型架构总称。当前被广泛讨论的世界模型,实质上依赖海量数据训练,而非直接总结物理规律。

世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测,它是一个空间基础模型,是VLA空间感知的一部分。

世界模型通过数据学习掌握“水杯越过桌面会下落”这类预测,VLA则通过语言模型处理更复杂的任务逻辑。

郭彦东用具体案例分解两种能力的协作模式。泡茶需要先取茶包再倒水,这类长程推理认知更适合语言模型完成;而水杯靠近桌边可能掉落等短程物理预测,正是世界模型的擅长点。两者融合后,机器人方可兼具短程环境预判与长程任务规划。

技术落地与架构演进

智平方围绕这一判断布局了融合研究。2025年11月,该公司联合北京大学推出新一代架构Video2Act,首次实现“先预测、后执行”的机器人模型范式。

世界模型还被用于生成真实环境中难以采集的边缘数据。例如采集杯子数据时,常遗漏桌面边缘等风险摆位,世界模型能生成对应样本,补全VLA的训练集。

从端到端VLA到融合世界模型,智平方进一步发布了类脑大模型NeuroVLA。这条进化路线指向一个方向:融合世界模型后,类脑架构将成为下一代机器人大脑的重要演进形式。

郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA  第2张

智平方发布NeuroVLA具身智能系统,此前Video2Act评测性能领先硅谷模型30%

在近日举行的智源大会上,智平方(一家专注具身智能技术研发的企业)正式推出了类脑具身智能系统NeuroVLA。据现场介绍,该系统是目前唯一同时具备主动感知、故障自恢复与时序记忆三大类生物运动能力的具身智能系统。与此同时,这家公司早前提出的Video2Act模型,因在第三方评测中较硅谷同类标杆方案取得超过30%的性能优势,已被2026年发布的一份世界模型权威综述列为“世界模型+VLA融合路线”的代表性成果。

从生成视频到生成行动:世界模型定位之变

对于机器人而言,理解环境动态的目标并非止步于预测未来画面,而是决定下一步该执行何种动作。Video2Act正是在这一理念下构建的技术方案。它不同于传统的视频生成模型,其核心是将四维(4D)世界模型与VLA架构进行融合。

VLA架构通常指一种融合视觉感知、语言理解与动作控制的多模态智能框架,它让机器人能够将从环境中接收的信息直接映射为具体操作。

通过空间稠密信息建模及持续注入动作时序输入,Video2Act使机器人可以提前推演未来的状态变化,再将这种推演能力实时转化为行动决策。按照智平方的表述,这是世界模型第一次实质性地成为机器人行动系统的一部分,而不再独立于决策链条之外。

30%性能优势与学界引用:融合路线获认可

从量化结果看,Video2Act在外部评测中较硅谷同类标杆模型实现了超过30%的性能领先。这一差距意味着,在相同任务条件下,该架构能在更短时间内形成更优的行动序列。

更深远的影响来自学术共同体的反馈。在2026年,由英国皇家两院院士、图灵人工智能世界领先研究员Philip Torr,以及强化学习领域奠基者Pieter Abbeel等全球顶尖学者联合完成的世界模型权威综述《World Model for Robot Learning: A Comprehensive Survey》中,Video2Act被作为“世界模型+VLA融合路线”的代表性成果重点引用。

上述综述的收录,反映出关于“世界模型还是VLA”的路径争论正被新的技术范式消解。业界关注的核心,已从二者孰优孰劣,转向谁能率先实现两者的深度协同。

看懂世界之后:用类脑机制解决稳定行动挑战

世界模型与VLA的融合,部分回应了机器人“看懂世界”的难题。然而,如何让机器人在看懂的基础上,像人类一样稳定、高效地行动,则构成下一个技术关口。这也是智平方近期重点突破的方向。

在智源大会的分享中,郭彦东重点解析了NeuroVLA系统的设计逻辑。该系统被定位为一套类脑具身智能系统,其突出特征是将主动感知、故障自恢复与时序记忆三类通常在生物体上才完备的运动能力,同时集成到了一个统一架构中。这使机器人在遇到环境扰动或执行偏差时,能够不依赖外部重置而自主校正,并利用过往动作序列积累经验。

  • 主动感知:机器人不再被动接收固定输入,而是根据任务需求动态调整感知焦点。
  • 故障自恢复:在动作出现偏差或遭遇外部干扰时,系统可自主识别并返回稳定状态。
  • 时序记忆:对过去的动作与状态序列进行编码,使长期任务的连续性得以保持。

从Video2Act的世界模型融合,到NeuroVLA的类脑行动能力,智平方的技术路径试图把“预测”与“执行”拉通在一个完整的具身智能框架内。随着这两项成果先后进入公开视野,下一代机器人大脑的竞争焦点,正从单一感知或单一控制,走向感知-预测-行动的一体化协同。

郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA  第3张

智平方推出NeuroVLA三级类脑架构 机器人运动抖动降低75%以上

针对人形机器人在真实环境中普遍存在的响应慢、动作抖动与能耗高等问题,智平方提出一种新的架构思路,将生物脑的工作机制引入机器人智能系统,并完成全球首个“皮层—小脑—脊髓”三级类脑架构NeuroVLA的构建。

从生物脑到机器人:为什么需要一个更像人的“脑子”

人脑并非依赖单一系统完成感知、推理与控制,而是由皮层、小脑与脊髓在不同时间尺度上协同运作。皮层承担语义理解与任务规划,小脑负责高频运动协调与动态修正,脊髓完成毫秒级运动执行与安全反射。

在现有VLA(视觉语言动作)架构中,机器人多依靠统一大模型同时处理所有任务,导致响应滞后和动作不稳定。智平方的研发团队认为,解决这一瓶颈的关键不在于让机器人外形更像人,而在于让内部架构更接近生物脑的分工方式。

研究团队提出的观点是:“大家做人形机器人,天天想着如何长得像人,但没有人想如何让脑子更像人。”

NeuroVLA的层级设计:皮层、小脑与脊髓各司其职

NeuroVLA架构由三个功能层级构成。皮层负责语义理解与任务规划,相当于机器人的“思考脑区”。小脑承担高频运动协调与动态修正,保障动作流畅度。脊髓则专司毫秒级运动执行与安全反射,提供即时响应能力。

这种分工使得机器人首次具备了类似生物系统的层级智能能力。不同时间尺度的处理任务被分配到对应模块,避免了统一架构下计算资源的竞争与延迟。

实测数据:抖动降幅明显,碰撞反射响应进入20毫秒级

实验结果显示,采用NeuroVLA架构后,机器人运动抖动降低了75%以上。在发生碰撞时,机器人在20毫秒内完成反射响应,系统功耗也得到显著降低。

  • 运动抖动降幅:超过75%
  • 碰撞反射响应时间:20毫秒以内
  • 系统功耗:显著降低(原文未披露具体数值)

基于素材中的表述,降低抖动与缩短反射响应时间直接提升了机器人在真实物理世界中的运行稳定性与安全性。20毫秒的反射响应能力接近于生物反射水平,使得机器人与人进行物理交互时的实时保护能力得到增强。

郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA  第4张

智平方发布NeuroVLA架构 三年迭代实现机器人从推理到本能反应

机器人领域迎来一项关键架构革新。智平方经过三年技术迭代,正式推出NeuroVLA,试图为机器人大脑构建更接近生物系统的智能范式,使其不仅能思考,还能完成即时反应与自主修正。

类脑智能:让机器拥有“本能”

区别于以往仅能进行逻辑推理的模型,NeuroVLA所瞄准的核心问题是机器人大脑的架构缺陷。该架构旨在赋予机器人连贯的物理行动能力,使其在思考之外,能够像生物体一样即时反应、自主修正并持续适应环境。

从端到端VLA,到Video2Act,再到NeuroVLA,在过去三年中,智平方持续围绕机器人大脑进行系统性创新。

所谓类脑智能,即让机器人不完全依赖预设程序,而是形成类似生物神经系统的反应机制。通过这种机制,机器人能够在动态场景中快速调整动作,减少对外部指令的强依赖。

技术演进路径的意义

NeuroVLA并非孤立产物。在它之前,智平方先后布局了端到端VLA和Video2Act等架构,逐步解决了从视觉感知到动作执行的衔接问题。这一演进路径表明,其目标始终是弥合机器人的“思维”与“行动”之间的鸿沟。

新架构的突破在于,它不再仅仅优化模型层面的性能,而是直接重塑机器人大脑的底层结构。过去,机器人可以“会推理”却难以流畅行动;现在,通过NeuroVLA,机器人开始表现出“会本能反应”的特质。

这种转变意味着,机器人在各类现实任务中的实用性将大幅提升,尤其在需要快速应变和连续操作的环境中,其自主性和可靠性有望接近生物体水平。

郭彦东在智源大会明确世界模型与VLA非竞争关系,发布类脑大模型NeuroVLA  第5张如果说VLA让机器人拥有了行动能力,世界模型让机器人拥有了理解和预测能力,那么NeuroVLA则进一步赋予机器人接近生物系统的反应与控制能力。这三次演进背后,其实对应着同一个方向:如何让机器人拥有一个更像人脑的“大脑”,让机器人越来越接近真正的人类智能。在本次智源大会的舞台上,郭彦东给出的不仅是一套技术方案,更是一条关于下一代机器人大脑的演进路线。