具身十日谈：GEN-0 以及后续的 VLA 发展的看法

前言#

最近 GEN-0 ↗¹ 的发布对于具身智能领域可以说是轰动性的。Manipulation 作为 Robotics 领域一直以来皇冠上的明珠，并且作为具身智能带来现实生产力必不可少的一环，一向以泛化的困难性著称。由于缺乏实际的使用场景，缺乏数据飞轮导致的数据匮乏使得模型的预训练难以 scaling up，而模型高度依赖后训练的数据。

在此之前，领域内最具代表性的工作莫过于 Pi 系列²³，在 Pi dataset 私有数据集上进行预训练。其结果是显著的，使用此类预训练之后，带来了模型后训练时的性能提升。从实际部署中，Pi 不同于若干号称反超自己的模型，在动作连贯性与平滑程度上有显著的差异。然而对于 zero-shot 完成任务仍有欠缺。

GEN-0 充分利用了数据工厂，采集了 270000 小时的数据，也就是大约 31 年，并且目前每周可以以 10000 小时的速度继续采集，这意味着每周采集三个领域中当前最大的数据集，如 OXE⁴ 或者 AgiBot-World⁵。在大约半年的时间之后，基于这些数据的预训练诞生了 GEN-0。从结果上来看，GEN-0 是一个比 Pi 系列更充分预训练的模型，为后训练带来了更强的增益，但是依然难以 zero-shot。

这乍一看是令人沮丧的，我们还没有迎来 GPT 时刻，然而其中却仍可以说明大量的事情。最近常看 The Bitter Lesson⁶，只能感慨其是不朽的圣经，常看常新，而在 GEN-0 这一贴近苦涩的教训的范式下，我们可以看出不少的东西。Scaling Law 再次展现了她锋利的獠牙，她带走了一些领域，解决了一些问题，并且带来了更多的问题，这对于领域的发展毫无疑问是有裨益的。

合成数据的终结#

仿真已死，合成数据已死。

我在具身智能领域先前的探索主要在仿真合成数据以及搭建仿真平台，辅有一些模型方面的探索。在去年的此时此刻，一个合理的直觉是那时还不是最合适做 VLA 的时候，因为数据的匮乏难以支撑模型的训练。仿真作为强大的合成与渲染工具，一些巧妙的方法可以用格式化算法以及 Motion Planner 高效生成大量多样性数据，例如我一年来维护的 GenManip⁷ 的一种 usage 是在 14K 的 Objaverse⁸ 资产上生成数万量级彼此不同的 cross-embodiment 的 long horizon 数据。

然而无论 GenManip 为代表的仿真，还是最近使用 World Model 生成数据，故事都已经结束了。仿真面临的 sim2real gap 目前本人已知的项目已经取得了相当 impressive 的进展，world model 的一致性问题则尚且保留，Scaling Law 冰冷且残忍地用 UMI⁹ 解决了数据问题。UMI 并非最新的东西，然而如何用更多的人力将其充分地 Scaling up，是一切的关键。

仿真人所畅想的，使用仿真数据通过算力不分昼夜生产数据，作为预训练的基石，并且通过可控的消融来研究数据的奥秘，已经显然地被数据工厂甩在身后，并且可观的未来中差距只会持续拉大。即使现在局势没有清晰，我们也可以给出这个准确的结论，面对没有 sim2real gap 的数据工厂，合成数据此路不通。当然，仿真依然有着一些用处，目前可以想到的包括，RL、提供 GT 的 rich annotation 以及作为 Benchmark。尤其后者，在作为「体验服」的自驾中就是如此。

所以先打个广告，事实上我迭代了一年的 GenManip Suite 依然有其作为 Benchmark Platform 的使用价值。我们在 Isaac Sim¹⁰ 上搭建的平台可以让你通过 Isaac GUI 编辑场景，基于 config template 快速定义任务并生成配套数据以及测试用例，最佳实践的流程只用七分钟。我们试图为 Manipulation 带回如生成或者 VLM 制作 Benchmark 的体验，你只需要 focus 在内容本身，而 GenManip 为你处理剩余部分。当然，GenManip 这套流程也可以用来 Scaling 数据，已有的项目如 InternData M1 ↗ 以及上海人工智能实验室举办的 IROS Challenge ↗ 分别展现了在数据生成以及测试上我们的潜力。目前我们放出了 1.0 pre-release 版本，并且计划在一周内完成剩余的 Polish 并带来更多 PR 和完整的文档，更多内容见我们支持双语的官网 ↗。

GEN-0 的启示#

另一点则聚焦于工作本身，GEN-0 尽管没有带来 zero-shot 的能力，但是却带来了更多的 insight。

首先，对于数据的需求远超我们的想象。在此之前诸如仿真等技术方案，本质都是相信，在提升一个数量级的数据之后，模型的能力就会带来本质的提高，然而目前在 real data 的验证下，远高出几个数量级的数据依然没有带来 zero-shot，这也在另一个侧面破灭了这些路线。假如无法忍受多一个数量级的时间开销，难以负担多一个数量级的算力开销，也很难将运行效率优化一个数量级，那么确实意义不大。

其次，VLA 也会进入大模型时代，小模型走不通。在这里的小模型指小型的 VLA，而不是更加小型的模型，然而这些模型期望使用如 0.5B 的参数来获得最终的泛化，而同时保持直接通过模型体积获得的 efficient 收益。GEN-0 的结果表明模型只有随着体积的增大才能吃下更多的数据，即「参数规模较小的模型在数据过载时会表现出类似“僵化”的现象，而更大规模的模型则持续提升」。这事实上小于大家期望的模型的 volume，小模型在 scaling 上的碰壁比大多数人预料中更加靠前。因此而衍生的，既然要端测运行大模型，那么相应的 VLA infra 必然会存在显著大于当下的前景，而研究「VLA infra」，即类似如 World model，根据前后时序的因果性等角度出发，还有大量的空白，而非直接套用上游领域的方法。

第三，模型的 pre-training 在从数据中学习 action space 的 exploration，而非类似 LLM 在概念上的泛化。当我们假设 VLA 模型主要在预训练中学习 VL 能力以及 Action 能力。预训练从数据中学习，主要本质上从数据中获得的提升可以朴素理解为主要学习数据中包含的最大多样性，那么对于 GEN-0 dataset 同时 rich of VL and A，结果上对于 post-training 的友好以及各类 Loss 的下降明显是 result in A，而没有泛化则某种程度上不完全地说明模型几乎没有 result in VL，没有对于能力的维持或者 transfer to A 的迹象。这与我们内部的一些实验结论吻合，相关内容或许只能等到放出来再给更多讨论，但是武断些的话，几乎可以确定的是，研究 co-training，尤其如何不通过类似 KI 的方法，更加本质地实现 transfer，这也是一个长久的命题。Pre-training，无论 Pi 还是 GEN，都体现了其在动作能力上的有效性，而如何带来一个泛化的模型，学界能做的依然很多。

值得一提，再次一个广告，我们团队的 InternVLA-M1¹¹ 使用非常清晰的 Codebase ↗ 实现了 co-training，在 VL 和 A 的数据上进行了协同训练，带来了非常好的效果，包括在 SimplerEnv¹² 上的性能显著提升（比之前 SOTA 提升十个点）以及真机的验证。相关内容非常易于后续 Follow up，欢迎关注。从这套 Codebase 延伸而出的开源项目 starVLA ↗ 也是用相似的思想，在 Qwen 的基础上搭建了大量不同模型的 style 的 VLA，Build model in Lego style，欢迎关注~

同样，依然存在的问题还在于 Post-traning，以及成功率 90 to 99 的最后一步的问题，或许真机 RL 也是一种出路。

可预见的未来的一段时间内，国内数采厂也会跟进，为具身带来预训练的环境，再之后，预训练科学将逐渐揭开她的面纱。

结语#

GEN-0 摧毁了一大部分我之前从事领域的意义，但是相关的 insight 以及对于数据的洞见却可以带到别的地方，留给仿真的最后大概也只会剩下 Benchmark，我貌似也有所涉猎。所以对于个人来说，坏消息是，解决问题的领域我身处其中，如合成数据；好消息是，带来问题的领域我也身处其中，比如 Benchmark，比如 co-training。而对于领域来说，处于 Scaling Law 的洞见总是最有价值的，她解决了一些问题，并且强调了更多的问题，也留下了一些悬念，可能等到 2700000 小时的数据之后再去揭开，一切其实都还欣欣向荣。

GEN-0: https://generalistai.com/blog/nov-04-2025-GEN-0 ↗ ↑
Pi-0: https://arxiv.org/abs/2410.24164 ↗ ↑
Pi-0.5: https://arxiv.org/abs/2504.16054 ↗ ↑
OXE: https://arxiv.org/abs/2310.08864 ↗ ↑
AgiBot-World: https://arxiv.org/abs/2503.06669 ↗ ↑
The Bitter Lesson: http://www.incompleteideas.net/IncIdeas/BitterLesson.html ↗ ↑
GenManip: https://genmanip.com/ ↗ ↑
Objaverse: https://objaverse.allenai.org/ ↗ ↑
UMI: https://arxiv.org/abs/2402.10329 ↗ ↑
Isaac Sim: https://developer.nvidia.com/isaac/sim ↗ ↑
InternVLA-M1: https://arxiv.org/abs/2510.13778 ↗ ↑
SimplerEnv: https://arxiv.org/abs/2405.05941 ↗ ↑

前言#

合成数据的终结#

GEN-0 的启示#

结语#

脚注#