Axi's Blog
Embodied AI Paper ListBlur image

前言#

在经历了去年以及今年大量的论文阅读之后,因为事务的繁忙,导致我并没有很多的时间去将那些我阅读的论文全都记录下来,从而伴随着累积的论文越来越多,到了 6 月初的时候居然已经积压了 100 多篇。事实上,伴随着对于领域理解的越发深入以及领域的发展,在具身智能领域中,大量的论文内容其实是几乎雷同的,只有少数论文包含了一些可参考的方案。如果从论文阅读的角度,那些事实上有些平庸,但是解法正因为平庸而显得规矩的论文,也是需要加入到阅读列表中,并且如实记录下来,这样才是对于读者的负责的态度。不过,这显然就极大地增加了我写作的压力。

如果我们将这些论文的差异进行比较的话,我们会发现几篇论文之间的差异可能是微小的。但是如果单从一篇论文的提出方法来看,则又需要介绍很多。在往期的论文阅读中,事实上已经有了类似的现象,我们准确归纳了一些词汇,比如 Pi-like 的模型,或者经典的 MoT 设计。在每一篇论文的阅读介绍中,我们几乎要不厌其烦的重复这些话很多遍,而甚至从本质上来说,几篇论文之间都可以用同样一句话进行归纳,这显然是对于精力和时间的浪费。

就像之前将自己的周记改为月记一样,某种程度上也是我打算再偷一次懒,而对于读者来说,或许也是一件好事。在本文中,我们不再会对于每一篇论文进行甚至算不上精读的介绍,而是将顺着整体的具身发展的脉络,将全部的论文串联起来,并且分为几个我所感兴趣的模块,一方面,我们会看到这些模块中不同的论文的交互之下,它们的区别以及是如何发展的。当然,值得一提的是,这些内容中不可避免会有一些所谓左右脑互搏的观点。具身智能依然是一个发展为时尚浅的学科,一些实验的不充分导致不同的论文或许会给出不同的结论,我们会将它们全都整理起来,以供参考。

VLA 模型#

作为一切的开始以及具身智能中最核心的概念,VLA 显然是最重要的章节。按照更加泛化的定义,所谓 VLA 模型指的是接受 Vision 以及 Language 输入,并且输出包含 Action 的大模型。通常我们认为它们会经过一定程度上的预训练,无论是基于以前的 LLM 或者 VLM 的先验知识,还是现有一些初创公司所闭源训练的,以及未来可能会存在的开源的原生 VLA 模型。

VLM-VLA#

所谓 VLM-VLA,也就是我们常讲的狭义上的 VLA 模型,往往是基于一个经过预训练的 VLM 或者 LLM 作为 backbone 进行设计,并且在 Robot Data 上进行后训练。

RT-2 以及 OpenVLA 是比较经典的早期 VLA 模型,都是使用预训练的 LLM 作为 Backbone,自己接入了 Visual Encoder,对于动作进行分箱处理,作为 Token 使用,并且直接以 Next Token Prediction 的方式进行训练。

一些工作依然保持着 NTP 的范式,并且事实上一部分相当不错,主要是采用了更加好的 Training recipe 或者更好的 action token:

论文主要贡献
MolmoAct Embodied VLM 预训练 + 深度感知 token,轨迹 token 以及 action token 后训练
VLA-0 VLM 直接输出文本 Action 的 VLA,好玩的尝试

π0\pi_0 则是继 OpenVLA 这一范式之后的又一经典。π0\pi_0 除了本身的预训练效果取得了不错的成果,论证了预训练的模型可以获得更好的性能(在 VLA 领域中,暂时不存在所谓的 Zero-shot 能力,但是预训练往往可以帮助模型在后训练时获得更好的性能),并且在后续作为了经典的 Baseline。同时,π0\pi_0 一次性引入了多个在后续被广泛使用的 Setting,当然,这些内容一开始的出处在这里不作考证,包括使用 MoT 进行 LLM 以及 Actor 的交互(见 Bagel),使用 Flow Matching Loss 训练 Actor 以及使用 zero-padding 来进行跨本地的混合训练。

对于 π0\pi_0 有启发的工作包括 TinyVLA 以及 CogACT 等,他们都使用了 VLM 和 Actor 分离的设计,来避免后训练中对于 VLM 能力的灾难性破坏。在此之后 π0.5\pi_{0.5}π0\pi_0 的一个 Follow-up,引入了更加系统的设计,使用 Web VLM Data 以及离散动作进行预训练,并且在后训练中也包括 sub goal prediction 的环节,并且具有了一些 Zero-shot 能力。其中比较值得考虑的是在预训练阶段引入离散的 Action Token,这一设计在后面的工作被 Follow-up。

与此同时另外一些值得参考的论文如下,他们均探讨了 VLM 与 Actor 的连接方式:

论文主要贡献
TinyVLA 首次提出 VLM + Actor 设计,使用 VLM 的 embedding 作为 Condition
CogACT 使用类似于 BERT 的 CLS Token 的 Cog Token 作为 Condition
RoboDual 快慢系统设计,慢系统预测离散 Action 作为 Condition
OpenVLA-OFT LLM + MLP 直接预测 Action,此方式至今简单有效
ChatVLA-2 使用 Dynamic MOE
SmolVLA 在 Actor 使用了交错的 CA 与 SA,模型更加轻量化
X-VLA 使用 soft prompt 混训的轻量 VLA,包括大量调模型技巧

在发展的过程中,包括 Sub Goal Prediction 的任务设计,使得一些研究者认为需要 Reasoning 以及 Planning 的能力聚合在 VLA 中,其中一种方案是让模型学习一种 Interleave 的模式。

论文主要贡献
OneTwoVLA 使用 Token(BOR & BOA)在 Reason 以及 Action 之间切换
CoT-VLA 先预测 Future Obs 作为 CoT

同时,π0\pi_0 使用的预训练中包含多种不同的机器人数据,使得一些研究者开始研究如何进行跨本体的预训练,这其中 π0\pi_0 使用比较直接的 Zero-Padding 的方案,于此同时一些其他的研究如下:

论文主要贡献
RDT-1B 使用 Unified Action,即将不同的本体的动作分配到一个很长的 Space 上的不同位置

另外,在 π0.5\pi_{0.5} 中所探索的,在预训练中使用 Action Token,使得一些研究者开始探索动作离散化的方案,这其中 π\pi 系列中使用的是同样出自 PI 的 FAST Tokenizer:

论文主要贡献
FASTer使用 action patchifier 以及 RVQ Tokenizer
Actioncodec定义了一些合理的 Training Objective 并且设计了对应的结构

在这一过程中,从 OpenVLA 开始,VLA 便开始面临一个本质问题,即使用 LLM 或者 VLM 的初衷来自于 leverage 模型的泛化能力,然而在模型的后训练过程中,由于 training objective 的变化以及数据的分布变化,使得模型面临灾难性遗忘的问题,在这方面一系列工作通过不同的角度尝试解决这一问题:

论文主要贡献
π0.5\pi_{0.5}-KI 在 VLM 以及 Actor 之间使用 stop gradient
InternVLA-M1 在后训练阶段依然使用 VLM-VLA 的 co-training

GR00t 是 NVIDIA 出品的另一系列的 VLA 模型,本身使用 Cosmos VLM 的 Hidden State 作为 Condition,提供给下游的 Actor。相较于之前的 π\pi 系列模型,除了连接方式上的差异,GR00t 引入了 Latent Action,即通过 VAE 的方式从视频中提取的一种动态特征,可表征 Action 类似的含义,作为预训练的组成部分。

LAPA 较为早期提出了 FDM 和 IDM 模型的设计以及概念,一个 Encoder 输入 OtO_t 以及 Ot+1O_{t+1} 预测 ata_t,Decoder 输入 OtO_t 以及 ata_t 预测 Ot+1O_{t+1},从此我们认为其中的 ata_t 可以表征一种动态信息,或者说其实本身就是预测光流的表示。

不过 LAPA 的设计存在一些问题,这些画面的变化不止包括动作本身,还有其他因素,因此后续也存在一些 Follow-up 来解决这一问题:

论文主要贡献
UniVLA 提出了一种两阶段的训练来更好地提取 Latent Action
villa-X 增加了一组 proprio FDM 来直接基于 z 以及 state 预测未来的 state 以及 Action 来更好提取 latent
CLAP 使用对比学习构造 Latent Action

π\pi 系列工作以及 GR00t 之后,VLM + FM Actor 的设计开始成为主流设计,一系列论文开始探讨如何在这些内容上进一步雕花,如引入别的表征:

论文主要贡献
FiS-VLA 通过在 Condition Concat 引入 3D Token

WM-VLA / WAM#

在 VLA 进行长久发展,学界以及业界开始探索另一发展路线,即基于除 LLM/VLM 这一框架之外另一可以 scaling 大量数据并且进行一定程度预训练的预训练模型,即 Video Generation Model,或 VGM,在这一语境下,我们称之为 World Model(事实上在领域中 WM 具有广泛的定义,VGM 是其中一种,但是还有很多其他类型的模型也或多或少称自己为 WM,在这里我们特指 VGM 或者 Action condition VGM 两种)。在这里,另一种常见的称呼是 WAM,即 World Action Model。我们对于 WAM 的介绍会不仅限于那些基于 VGM 的模型,而是对于以预测未来作为模型训练目标的模型的统称。

在比较早期包括一些使用 LLM/VLM 作为 Backbone 的 WAM:

论文主要贡献
DreamVLA LLM 侧预测 Dynamic/Depth/Semantic 的 embedding

在此之后出现了一些基于 World Model 的 VLA 模型,一种方案是追求完全的 Unifed 能力,桥接 VLM / WM / Actor,一般直接通过 MoT 进行连接,如比较经典的 Motus。这些设计一方面希望 Leverage 各种模型的先验知识,另一方面也可以尽可能更多地利用更多的数据。

另外一些工作则直接基于 VGM,如 VLM-VLA 的范式一样,在此研究 VGM 与 Actor 的交互方式。

剩余常见的工作在这里列举部分有代表性的:

论文主要贡献
Genie Envisioner 训练 DiT Base 具身 VGM 基模,DiT Latent 作为 Actor DiT condition
VideoVLA DiT VGM 后训练同时预测 Frame Latent + Action
InternVLA-A1 VLM + VGM + Actor 的 MoT

Embodied RL#

伴随着 VLA 技术的发展,在 LLM 以及 VLM 中流行的 RL 技术也迅速涌入了具身领域,在对于 Flow Matching 施加 RL 之前,一些研究先探索了对于 VLM 进行具身导向任务的 RL,比如说轨迹预测等:

论文主要贡献
ThinkACT 对于 VLM 使用 GRPO 训练轨迹预测能力

在一些工作在 VLA 领域中进行了一些探索之后,如 π0.6\pi_{0.6} 等工作开始出现,这些工作伴随一种特性,其中一部分工作试图通过一些方案绕过 RL,而直接在 SFT 中达到类似 RL 的效果,这里如 π0.6\pi_{0.6} 使用优势值作为模型的输入,本身依然是进行正常的训练,从而可以在部署时,如果输入较大的优势值,则模型趋向于输出优质轨迹,同时在训练中可以 leverage 更多的数据;另外一些工作则进行严格意义上的 RL,通过 online 或者 offline 的方式展开。

以下是一些标准的 RL 训练的工作:

论文主要贡献
SimpleVLA-RL 使用 GRPO 进行 online RL
RLinf-VLA RLinf RL 框架
πRL\pi_{RL} 基于 RLinf 的两种对 Flow 的 RL 策略
RL-100 将降噪描述为 MDP 来构建 RL 并先 offline 再 online RL
PLD RL + 数据回流并通过残差网络学习
GR-RL 设计并对 Actor 的初始噪声预测器进行 RL

杂项#

除了以上的主要命题之外,具身依然包括很多其他的子问题,对于读者来说,阅读这部分的内容并非必须,但是在相关的话题下,或许可以提供一些有价值的参考。

有价值的 Study Paper#

除了对于模型架构以及训练范式的探索,一些对于模型能力以及训练的系统消融也是有价值的,它们与前文介绍的不同方案息息相关,相关结论总结在这里。值得一提,由于领域仍在发展,一些结论具有局限性,不同论文之间也有区别。

论文方案结论
How Do VLAs Effectively Inherit from VLMs?通过 reach emoji 的任务来消融不同训练方案对于 VLM 本身泛化能力的影响VLM 的先验是有必要的;LoRA 或者 Frozen VLM 虽然可以提升 SR,但是容易欠拟合;一起训练的问题在于灾难性遗忘,因此 co-training 被验证是有效的。LAPA 类型的 Latent Token 相较于离散 Token 对于训练效果更好。非机器人相关的 VLM 数据也可以 benefit VLA。

Leverage 异构数据#

伴随着 VLA 的发展以及对于 Scaling 的需求,业界以及学界开始探索如何更好地 Leverage 异构的数据,如 Ego / UMI Data 等,一些改进通过 Training recipe 的调整,如更加 well-design 的课程学习完成,另外一些则通过如修改数据清洗流程或数据采集硬件展开,即从源头和末端解决异构数据混合训练的问题。

In-context Learning#

In-context Learning 是 LLM 中一个非常重要的能力,在 VLA 领域中,是否存在 In-context Learning 的能力也是一个非常重要的问题,如果真正存在 In-context 能力,那么意味着存在一个通用的 one-shot model,这同样是令人振奋的。

论文主要贡献
RICL 使用 DINO 相似度对于 context action 和 VLA output 插值,较为原始的探讨

空间表征#

一些论文讨论如何将空间表征加入到 VLA 里面,这对于空间智能这一具身智能的姊妹命题是一种阐释:

论文主要贡献
SpatialVLA 使用 semantic embedding 以及 depth 来投影得到 Spatial Token
Evo-0 Fusion image encoder 以及 VGGT

Visual Prompt#

一些工作认为对于 VLA 来说,在图片上标注一些信息,可以帮助模型获得更好的性能,这些信息即 Visual Prompt:

论文主要贡献
TraceVLA 在图片上标注历史动作轨迹
Spatial Traces 在深度图上标注历史动作轨迹,即“时空”轨迹

快慢系统#

构建一个快慢系统来提高端侧的运行效率也是具身智能比较关心的命题,因为这样可以增加模型的灵活度,进一步提高模型的成功率,上述主要篇幅中其实如 RoboDual 就是快慢系统,同时如 π\pi 以及 GR00t 等模型均因为包含两个桥接的组件,因此可以以不同的频率进行更新,从而形成快慢系统。除此之外还有一些其他工作:

论文主要贡献
Hume 慢系统生成候选动作,快系统 Corse to Fine
Helix 快慢系统的 Demo,无 report

初创们的技术报告#

同时还有一些初创公司、实验室或者正常企业的 VLA 技术报告,这些内容在当时可能较为同质,没有代表性,因此单独列出。在研究预训练以及数据组合的时候或许具有一些参考价值:

论文主要贡献
GR-3 Seed Robotics 出品的 Qwen + Pi
G0 Galaxea 出品的 Qwen 2.5 VL + Pi
EO-1 Interleave 预测 Language & Action 的 co-training VQA 模型
GigaBrain-0 GigaAI 出品的使用 World Model 合成的数据一起训练,KI Pi
iFlyBot-VLA 讯飞出品的 Latent Action + FAST + MoT Actor
RynnVLA-002 达摩院出品的 UMM-based 同时预测 Future + 离散动作 + DiT Actor
DuoCore-FS Astribot 出品的 VLM + Transformer Fusion + Actor
Being-H0.5 BeingBeyond 出品的使用 United Action Space 来混训不同本体数据 + VQA 的 Pi

新架构探索#

一些不足以作为代表性,但是相对有一些值得一提的点的论文将被放在这里,但是总体上它们依然遵循 VLA 的任务范式:

论文主要贡献
dVLA 比较规整的 dLLM 用 diffusion 同时预测 image、language 以及 action
DUST 在 Actor 部分使用 MMDiT + Joint Diffusion
MM-ACT 基于 LLaDA 的 dVLA
TwinBrainVLA Frozen VLM + VLM + Actor 的 MoT 以避免灾难性遗忘

Policy 模型#

站在 VLA 模型的对立面,policy 则是我们对于另外一种模型的名称概括。通常来说,这些模型的参数量较小,具有着某种来自于计算机视觉领域较早时期的风格,它们往往基于一些 Transformer block 以及一定的 encoder 进行设计,并且论文的创新点或许也主要集中在对于模型结构内特征交互的改进。

ACT 是最为经典的 Policy 模型,虽然在 23 年提出,但是在如今大量的机器人公司的 Demo 调试中依然被广泛使用,大多数时候因为 Demo 需要鲁棒的过拟合,ACT 的设计显然是非常适合的。本身 ACT 使用了 CVAE 来预测 Action,是一种直接且有效的方案。本身 ACT 提出了 Action Ensemble,即将预测的 Action 进行 EMA 平滑。

RT-1 是谷歌团队基于他们自己采集的数据集训练的 Policy 模型,即 Robot Transformer,虽然在此之后很快,RT-2 就成为了 VLA 的范式,但是本身这篇论文依然比较经典。

另外比较经典的就是 Diffusion Policy,也就是直接使用 Diffusion 来预测 Action,并且用 Obs 作为 Condition,这一方法在后续得到了大量 Policy 论文的 Follow-up,有必要注意的是 3D Diffusion Policy,其本身输入的内容变为点云,使得在其他工作的应用中,可以通过仿真或者其他无法生成可靠贴图,但是存在可靠点云的数据中进行训练。

Benchmark#

了解 VLA 的常见测评,也是了解 VLA 发展以及学界和业界目前对于 VLA 期望的一个途径,在这里列举常见的 Benchmark 以及各自的侧重点:

论文主要贡献
LIBERO 基于 Mujoco,因为数据集分布,难度有限,包含部分动作组合的任务
LIBERO-Plus加入物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理以及传感器噪声等维度扰动的 LIBERO
Simpler-Env 基于 Sapien,复刻 OXE 部分场景,数据集为 Real Data,良好的 Sim 调校并且大量实验验证 Sim-Real 一致性

数据采集#

在这里列举一些数据采集的工作,这些工作作为具身的数据源头,不得不提。

UMI#

UMI,即

仿真合成数据#

Embodied AI Paper List
https://axi404.top/en/blog/eai-papers
Author 阿汐
Published at June 8, 2026
Comment seems to stuck. Try to refresh?✨