首页 / 科技 / 英伟达发布世界动作模型DreamZero，登顶两项机器人基准测试

英伟达发布世界动作模型DreamZero，登顶两项机器人基准测试

摸鱼不慌管理员 2026-06-23 03:06:37

英伟达近期推出了世界动作模型（WAM）DreamZero，该模型在机器人基准测试RoboArena与MolmoSpaces上均取得最高成绩。这一成果被视为具身智能领域的一次重要进展。

“先理解，再行动”的模型架构

与传统视觉-语言-动作（VLA）模型不同，WAM将视频作为核心学习材料。模型先学习世界如何变化，再据此决定如何行动，从而从互联网视频中获取海量物理经验。

“世界模型（World Model）被视为让AI真正理解并预测物理世界的关键拼图。”——素材原文

这种结构让模型不再依赖大量重复演示来学习单一动作，而是从多样化数据中归纳物理规律。

在未知环境中保持稳定执行

DreamZero在训练过程中并未针对特定任务进行重复示范，但在测试中面对从未见过的环境和任务时，仍能完成稳定操作。这意味着模型的泛化能力来自对世界运行逻辑的深层理解，而非对特定场景的记忆。

基准测试一：RoboArena，排名首位
基准测试二：MolmoSpaces，同样登顶

对具身智能领域的潜在影响

业内人士指出，WAM通过将物理世界的时空信息纳入学习流程，降低了机器人技能学习的门槛。这一逻辑有望推动机器人从预设脚本执行向自主适应过渡。

RLinf系统优化团队实现近4倍加速三大优化维度同步升级

RLinf系统优化团队近期完成对官方脚本性能瓶颈的系统性攻关，通过三大维度的深度优化，使训练速度提升近4倍。

优化维度一：计算图重构

团队对计算图进行了专项优化，旨在提升模型前向与反向传播的运行效率，为整体性能突破奠定基础。

优化维度二：FSDP2并行与全局参数调优

FSDP2并行优化结合全局参数调优，从分布式训练策略与超参数层面进一步挖掘加速潜力。

优化维度三：数据处理管线优化

数据处理管线的优化聚焦于数据加载与预处理环节，通过减少I/O瓶颈保障GPU利用率最大化。

三大优化维度协同作用，整体训练速度相比官方脚本提升接近4倍。

项目代码及模型权重已在GitHub与Hugging Face平台同步更新，使用文档也已正式开放，方便开发者复现与二次开发。

RLinf多项工程优化落地：DreamZero 5B训练吞吐提升266%，14B单步加速34%

近日，RLinf团队披露了一项针对DreamZero系列模型训练的系统级优化成果。通过算子编译、并行策略重构及数据管线改造，团队在保持原有mbs=1配置下，使5B模型单步耗时从1.8秒降至1.2秒（加速50%），14B模型从9秒降至6.7秒（加速34%）；通过全局参数调优，5B模型训练吞吐最终实现266%的提升，达到4.4 samples/sec/gpu。

固化计算图：算子融合与调度消除

GPU峰值性能的隐形瓶颈来自Python层面的算子与调度开销。RLinf团队将torch.compile与CUDA Graph两项技术深度集成至DreamZero训练流程中。

Torch Compile：通过底层编译实现算子深度融合（Kernel Fusion），重点优化了WanRMSNorm、adaLN-zero等Diffusion架构中的低效算子。
CUDA Graph：将计算图固化，消除CPU侧的内核发射（Kernel Launch）瓶颈。在DreamZero训练中，CausalWanSelfAttention部分的kernel launch密度较高，该技术对此实现了显著优化。

两项技术叠加后，5B模型在原mbs=1配置下实现50%加速，14B模型实现34%加速。

并行策略重构：FSDP2、柔性Microbatch与Recompute协同

DreamZero官方baseline存在工程局限：默认使用DeepSpeed ZeRO2 offload，且image encoder不拼batch逐样本执行，大幅压缩了调优空间。RLinf从底层夯实工程底座，交付一套可配的调优矩阵。

FSDP2迁移：FSDP2是PyTorch官方团队推出的最新ZeRO实现。此前的DeepSpeed方案中，ZeRO3与VAE模块的causal conv上下文维护机制存在兼容冲突，开发者被迫回退至ZeRO2 offload；且DeepSpeed反向传播阶段的高CPU开销制约了吞吐。迁移后，用户可根据显存需求灵活切换分片策略。
灵活Microbatch设置：团队彻底解决了mbs > 1时与FSDP2、Recompute的组合冲突，并使image encoder高效拼batch执行。例如，5B模型不开Recompute时，mbs从1扩至2，单步耗时几乎不变（1.2s/step→1.3s/step），吞吐增加85%。
Recompute深度协同：RLinf实现了Recompute与CUDA Graph、FSDP2的稳定解耦。5B模型不开Recompute时单卡mbs最高为2，最佳速度1.2s/step（1.7 samples/sec/gpu）；开启Recompute后单卡mbs可开至32，获得7.2s/step（4.4 samples/sec/gpu），吞吐提升158%。

在初版优化（1.2 samples/sec/gpu）基础上，通过FSDP2、mbs、Recompute的全局调优，训练性能进一步提升266%，达到4.4 samples/sec/gpu。

数据管线改造：视频解码瓶颈突破

计算密度提升后，数据加载效率成为新瓶颈。DreamZero训练中视频解码极其消耗CPU资源。传统方案（如PyAV）解码性能不足，而单纯增加dataset的num_workers会抢夺CPU资源，导致内核下发延迟。RLinf团队对主流视频处理库进行了深度性能Benchmark，但具体优化方案在素材中未进一步披露。行业人士指出，此举旨在寻找解码速度与系统开销之间的最优平衡点。

DreamZero训练框架升级：视频解码优化带来端到端性能提升

在机器人基础模型DreamZero的训练优化中，研究团队通过引入新的视频解码库，在I/O端实现了显著性能提升。相比原生PyAV方案，单个视频的解码时间缩短近400毫秒，为后续计算优化提供了支撑。

视频解码优化：从PyAV到Torchcodec的性能差异

在视频解码环节，测试显示Decord在纯解码速度上略占优势，但Torchcodec在保持同梯队性能的同时，表现出更优的CPU占用稳定性。这一特性使得系统能够为训练主线程预留出足够的计算余量，并支持开启更多num_workers进行并发数据处理。

在多视角训练场景下（左视角、右视角、腕部视角三个视频），视频解码时间累计节省了1.2秒。

端到端性能实测：不同规模模型的吞吐表现

为验证多维优化的综合成效，研究团队在Droid数据集上进行了严格测试。该数据集单样本包含左、右、腕部三个视角，视频规格为33帧×480×640像素，对DreamZero不同规模的模型进行了端到端评估。

DreamZero-14B：大参数模型的吞吐跃迁

在14B大模型上，由于显存压力巨大，官方基线通常被迫采用DeepSpeed ZeRO-offload方案，导致严重的计算/通信浪费与CPU换入换出开销。RLinf相比原生DeepSpeed方案实现了2.7倍加速；即便与未经优化的FSDP2相比，吞吐量也进一步提升了35%。

深度速度ZeRO-offload：一种将模型参数、优化器状态卸载到CPU内存以缓解GPU显存压力的技术，但会带来额外的数据传输开销。

DreamZero-5B：中等模型的算力压榨

对于5B中等规模模型，RLinf的优势在于能够通过高效率的重计算逻辑稳定开启更大的Microbatch Size（mbs），并配合其他计算图调优，彻底释放GPU算力。通过RLinf调优，训练吞吐从官方代码的1.1 samples/sec/gpu飙升至4.44 samples/sec/gpu，相比于有诸多限制的FSDP2 Base实现了5.84倍性能飞跃。

Microbatch Size：训练中每次微批处理的样本数量，增大该值有助于提升GPU利用效率，但受显存限制。

RLinf框架实现14B与5B模型训练吞吐优化，5B模型收敛曲线与Baseline一致

近日，一项基于8块H100 GPU的模型训练性能测试公开了详细数据。测试对象分别为参数量14B和5B的两类模型，重点评估了单步时间、吞吐量以及训练收敛效果。结果显示，针对不同规模的模型，研究团队通过调整微批量大小（MBS）与全局批量大小（GBS）、修复底层通信及算子效率问题，显著提升了吞吐表现，同时保持收敛精度与官方基线一致。

吞吐性能：14B模型与5B模型分别采用差异化配置

测试全程使用8xH100算力。14B模型因中间维度较大，设定MBS=1、GBS=8进行测试。这一配置可在小批量下取得较优的算子效率，并有效掩盖FSDP2（全分片数据并行第二版）的通信开销。对于5B模型，则采用GBS=256的大批量配置。

“FSDP2 Base版本由于一些PyTorch的bug不能开大MBS，导致吞吐受限，这主要是因为小MBS下算子效率不高、CPU开销显著以及FSDP2通信不能被掩盖；我们解决了这些问题，并且取得了较大的吞吐增长。”——测试报告原文

在5B模型场景中，原始FSDP2 Base版本因PyTorch缺陷无法启用较大的MBS，导致小批量下算子效率低下、CPU开销明显且通信无法被掩盖。研究团队针对性修复后，获得了显著的吞吐提升。

收敛精度验证：5B模型在LIBERO数据集上38小时训练结果

在极致性能优化之外，训练正确性与收敛稳定性是框架落地的关键。研究团队对RLinf版本的DreamZero 5B模型进行了严格的收敛性验证。配置参数为：学习率（LR）= 1e-5，全局批量大小（Global Batch Size）= 256，使用8卡H100，训练时长为38小时。

下图展示了DreamZero 5B模型在LIBERO数据集上的Loss曲线对比：

橙线（RLinf）与蓝线（官方Baseline）呈现一致的收敛趋势。
官方代码在训练过程中Loss波动较为剧烈，因其以Episode为粒度进行数据读取。
RLinf通过底层重构，实现了Episode内部的Step粒度随机采样，有效平滑了训练噪声，提升了梯度更新的稳定性。

“Loss曲线对比分析：图中橙线（RLinf）与蓝线（官方Baseline）呈现一致的收敛趋势。值得注意的是，官方代码在训练过程中Loss波动较为剧烈，这源于其以Episode为粒度进行数据读取；而RLinf通过底层重构，实现了Episode内部的Step粒度随机采样，有效平滑了训练过程中的噪声，提升了梯度更新的稳定性。”——测试报告原文

术语解释：MBS（Micro Batch Size）指每次前向/反向传播处理的微批量样本数；GBS（Global Batch Size）指全局一次迭代中参与梯度更新的总样本数，通常等于MBS乘以数据并行度。FSDP2（Fully Sharded Data Parallel 2）是一种模型分片并行策略，将模型参数切分到多个GPU，并通过通信同步梯度。Episode与Step是强化学习中的概念：Episode代表一次完整轨迹，Step代表轨迹中的单步决策。

此次测试表明，RLinf框架通过调整批量配置和修复底层缺陷，能够在8卡H100环境下兼顾吞吐性能与训练精度，为大规模模型分布式训练提供了可参考的优化路径。

RLinf与DreamZero在LIBERO仿真器上的训练性能对比

在RLinf训练曲线（橙线）与DreamZero官方代码训练曲线（蓝线）的对比研究中，研究团队围绕三类损失函数（Loss）及梯度范数（grad_norm）指标进行了系统评估。结果显示，RLinf在训练稳定性和收敛效率上表现出显著优势。

三类Loss与梯度范数对比

实验过程中，研究团队对比了RLinf与DreamZero在策略损失（Policy Loss）、价值损失（Value Loss）以及总损失（Total Loss）上的变化趋势。RLinf的橙线在三类Loss上均呈现出更平稳的下降轨迹，而DreamZero的蓝线波动幅度相对较大。

在梯度范数指标上，RLinf的梯度范数曲线更趋收敛，表明其优化过程更为稳定，避免了梯度爆炸或消失的问题。

端到端测评：LIBERO Spatial Benchmark数据

为进一步验证性能优化效果，研究团队选取RLinf训练的9k至21k Step范围内的Checkpoint，在LIBERO仿真器的Spatial Benchmark上进行了端到端测评。测试设置下，每个Checkpoint执行512条轨迹，单Episode最大长度为480步。

测评结果显示，RLinf在9k至21k Step区间内的成功率呈现稳步提升趋势，部分Checkpoint的成功率显著高于DreamZero官方代码训练的基线水平。

RLinf关键优化机制解析

RLinf采用了改进的强化学习训练框架，其核心机制在于对损失函数的调整：
- 策略损失部分引入了更严格的约束项，使得梯度更新方向更精确。
- 价值损失函数通过权重调节，减少了对异常样本的敏感度。

梯度范数（grad_norm）是衡量模型更新步长稳定性的指标，梯度范数过大或过小都会影响训练收敛。RLinf通过自适应梯度裁剪机制，保持了梯度范数的平稳变化。

测评结果对强化学习训练框架的影响

基于上述实验数据，RLinf的优化策略在LIBERO仿真环境中展示出可复现的改进效果。研究团队指出，这一训练框架的调整对于需要高精度动作序列的任务场景（如机器人操作）具有潜在应用价值。

RLinf 工程方案助力 DreamZero 训练吞吐提升近4倍实验成功率超96%

一项最新实验数据显示，训练框架 RLinf 在支持世界模型 DreamZero 训练时，成功将模型吞吐量提升了近4倍。实验结果显示，模型在训练至 18k Step 时达到了 96.68% 的成功率，表明 RLinf 在实现训练耗时大幅缩短的同时，保持了模型原有的训练效果与收敛质量。

世界模型训练效能系统性提升

RLinf 对 DreamZero 的深度支持涉及算子融合、I/O 调优以及并行策略的纠偏与 mbs 自由度的释放。RLinf 并非进行简单的参数调整，而是在工程层面进行了系统级的重构。mbs（micro-batch size）自由度是指模型在训练过程中可根据硬件条件灵活调整的小批量大小，这有助于避免因并行配置僵化导致的资源闲置或溢出。RLinf 通过释放这一自由度，进一步改善了硬件利用率。

近4倍的吞吐提升，意味着使用同等硬件资源下，算法研究人员可将原本需要1个月的实验缩短至1周内完成。RLinf 团队将其定位为具身智能领域高效迭代的加速工具。

实验结果显示，模型在 18k Step 处达到了最优的 96.68% 成功率，证明 RLinf 在大幅缩短训练耗时的同时，完全保持了模型原有的训练效果与收敛质量。

模型权重已开放获取

用于验证结果的最优模型权重已公开发布，供研究人员复现与继续使用。

模型名称：RLinf-DreamZero-WAN2.2-5B-LIBERO-SFT-Step18000
权重获取地址：https://huggingface.co/RLinf/RLinf-DreamZero-WAN2.2-5B-LIBERO-SFT-Step18000

对行业的直接影响

根据实验结果的量化指标，RLinf 为世界模型的训练迭代提供了显著的周期压缩能力。缩短训练实验周期，意味着具身智能研究团队能够在更短时间内验证更多算法假设，从而加速从实验设计到应用落地的进程。

RLinf发布开源框架，强化学习驱动具身智能体训练

一个名为RLinf的开源强化学习框架于近日公开，该项目旨在为具身多智能体系统提供强化学习和模仿学习算法支持。项目代码托管于GitHub平台，同时提供了完整的Hugging Face模型库与中文使用文档，方便开发者直接应用。

框架功能：覆盖训练全流程

根据项目文档，RLinf集成了多种强化学习算法，并支持基于人类反馈的强化学习（RLHF）及模仿学习。其设计目标是将LLM（大语言模型）的能力与机器人智能体结合，使智能体能够在物理或模拟环境中执行任务。

文档中给出的示例展示了如何通过SFT（监督微调）与Dreamer算法相结合，训练一个名为“DreamZeo”的具身智能体。该流程包括环境配置、模型加载、训练策略设定等多个步骤。

“项目提供了从环境搭建到智能体训练、评估的一站式解决方案，降低了具身智能研究的入门门槛。”

资源获取与文档支持

代码仓库：GitHub平台已开放RLinf项目完整代码，包含示例脚本与配置文件。
预训练模型：Hugging Face社区中已上传RLinf相关模型权重，支持直接下载与调用。
使用文档：Read the Docs平台提供了详细的中文文档，涵盖入门指南、API参考及具身智能训练案例。

RLinf的开源属性意味着研究者和开发者可以自由修改、扩展框架功能，适用于机器人控制、自动驾驶仿真等领域的算法开发与实验。该项目目前处于早期开源阶段，后续更新将取决于社区反馈与贡献。

本文由摸鱼不慌发布，转载请注明出处。
文章链接：https://www.moyubuhuang.com/keji/202606/24774.html