Paper Reading: Embodied AI 3 • Axi's Blog

A_0#

Arxiv ID 2504.12636

训练 Diffusion 进行稀疏轨迹预测，之后 rule-base 执行

总的来说不难理解，就是用 Diffusion 预测了 2D 的稀疏轨迹，然后用 GraspNet 预测第一帧的 Grasp Pose，之后的用 VLM 判断高度，并且进行平滑。总的来说用专用模型做了通用模型可以做的事情，但是或许可以刷上去性能吧。如何做 Work 了其实是值得细品的，比如说选择的稀疏轨迹的点的数量等，但是总体中规中矩。

推荐指数：

OneTwoVLA#

Arxiv ID 2505.11917

自动切换 Reasoning 和 Action 的 VLA 模型

比较有意思的 VLA 工作，可以自由切换 Reasoning 和 Action 的能力，本身就是根据输出 Begin Token，也就是 BOR 和 BOA 来决定处于哪个模式。本身假如说每一个 Action Chunk 执行完之后，还没有执行完 Action，VLM 那一部分会直接输出 BOA 然后继续输出 Action。

整体的模型的流程就是用 OpenPi 的方式，但是支持了动态切换 Reasoning 和 Action。本身 Reasoning 的内容也值得参考，包括四类：详细场景描述，即突出任务相关物体的位置；高层计划，即逐步列出完成任务的操作；历史总结，即保持上下文感知；下一步计划，即接下来需要执行的操作。

本身方法还提供了一个生成 Reasoning 数据的 Pipeline，可以理解为就是 Gemini 负责 Reasoning，然后 Flux 1.x 负责图片生成。

推荐指数：

Diffusion Policy#

Arxiv ID 2303.04137

Diffusion for Action Policy

经典之作，用 Diffusion 做 Action 预测，输入和输出都是 Action Chunk，支持 CNN 以及 DiT 的两种变体，没啥好说的。

推荐指数：

RDT-1B#

Arxiv ID 2410.07864

大 DP

训练的超大 DP，用了叫做 Unify Action Space 的东西，但是貌似现在都是已经是 Latent Action 流行了，本身貌似还算 Work。

推荐指数：

Octo#

Arxiv ID 2405.12213

History + Hidden state transformer 接 Action head

比较正常的一篇。语言过 Text encoder，图像过 CNN，组成 OBS Chunk，可变长度，输出 Readout Token，类似于一种 hidden state，后面接一个 action head。在切换本体之类的时候，直接换 action head 就好。比较经典的设计。

推荐指数：

CogACT#

Arxiv ID 2411.19650

VLM 输出 learnable token，之后接 DiT

VLM 之后输出包含一个 Cog Feature，跟一个 DiT 的 DP，整体就是类似之前 Bert 或者 ViT 或者什么的思路，用这个 Token 表征整合后的信息，然后让 DP 去生成。

推荐指数：

Helix#

Arxiv ID https://www.figure.ai/news/helix

双系统模型

最早做双系统的，两个模型分别推理，频率不同。从 demo 上，一个模型控制两个上身，比较 impressive，但是没有相关的 report，不评价。

推荐指数：

FAST#

Arxiv ID 2501.09747

进行 DCT 的 Tokenizer

因为离散 Action 进行量化的方法生成的 Action token 效果不好，尤其是采样率越高，越容易退化为复读机，因此提出了 FAST Tokenizer。流程是先归一化 Action，之后 DCT 变换，按低频优先顺序展平不同维度的数据，然后用 BPE 压缩为稠密，这些操作都是可逆的。在经历上述操作之后，收敛效率更高，性能不掉。

推荐指数：

Magma#

Arxiv ID 2502.13130

大型的包含 Action 以及中间表征 SoM/ToM 的 pretrain 模型

如图所示，大量训练。

推荐指数：

ChatVLA#

Arxiv ID 2502.14420

MOE VLA

因为之前的模型在理解和动作之间会冲突，所以加入了共享 Transformer 但是不共享 FFN 的 MOE，并且两阶段训练，第一阶段只使用机器人数据，第二阶段加入推理数据 co-train。

推荐指数：

ChatVLA-2#

Arxiv ID 2505.21906

Dynamic MOE VLA

前作的 MOE 是静态的，也就是根据训练选择激活哪些，这里使用动态 MOE，也就是由路由网络来选择激活哪些 FFN，并且在后面接了一个 Action Expert。大家逐渐都开始发现，不能让 VLM 直接输出 Action，而是应该是双层模型，不然会有很大的代价，即损失 VLM 的通用能力。

ChatVLA2 同时把本来的推理信息嵌入了 Action Expert 中。这次的两个阶段，第一阶段是 co-train，第二阶段 freeze VLM 然后训练 Action。这里一方面也是因为本来的模型，比如说 Action Expert 等，都是经过预训练的。

推荐指数：

RoboBrain#

Arxiv ID 2502.21257

用了两个 LoRA 大量训练的 VLM

主要加入了 Grounding 以及 Trace 数据进行 finetune 的 Qwen，加入了两个 LoRA 分别处理 Grounding 和 Trace 的任务，本身 VLM 可以做 Planning。

推荐指数：

CoT-VLA#

Arxiv ID 2503.22020

生成图片再用图片作为 Condition 生成动作的 VLA

如同 tldr 所说，本身还是正常的 VLA 的配置。本身的思路是先生成图片之后再使用图片来作为 condition 来生成动作。这个想法确实看上去十分的诱人，但是事实上并非如此。首先其本身使用的是 VILA-U 这一模型，虽然说我对于 Unified 领域并不是那么了解，本身对于语言与文本模态同时在理解与生成进行 alignment 貌似已经存在 trade off，况且还要加入动作，对齐过于草率。同时在连续的生成中，误差的积累也不可忽略。综上所述感觉本身看上去愿景不错，但是需要做的更加细致些。

推荐指数：

Interleave-VLA#

Arxiv ID 2505.02152

Interleave 输入的 VLA

大概的意思就是改成输入为 put <image of apple> on the <image of plate> 的 VLA，早期的 VIMA 其实做过类似的事情。从结果上有效果。

推荐指数：

Knowledge Insulating Vision-Language-Action Models#

Arxiv ID 2505.23705

Pi 关于 VLA 的技术报告内容

值得一看的技术报告，推荐读者阅读。主要是提出了几种好用的方法。包括：联合训练 autoregressive 和 flow matching；使用 VLM 数据 co-training；禁止动作专家的梯度回流到 VLM 主干；使用 FAST 这种编码器而非 naive 的离散编码。

推荐指数：

Hi Robot#

Arxiv ID 2502.19417

双系统 VLA

本身就是描述了一种双系统的图景，并且做出来了。System 2 是 VLM，system 1 是 VLA，并且是两个系统同时推理并且可以异步。有意思的或者可以感兴趣的反而是一些任务的设置或者说认为 system 2 需要具备的能力，假如你也对 system 2 感兴趣，可以参考。同时还包括一些如何设置模型的可供参考，比如说对于 VLM 何时被触发，可以每秒触发一次以及在有语音唤醒的时候触发。本身还可以。

推荐指数：

Scenethesis#

Arxiv ID 2505.02836

Image generation + 约束生成 3D 场景

因为具身这边涉及 3D 场景资产，所以穿插一篇这个。Nvidia 做的，本来以为会非常的 promising，但是还是在正常范围内，基本的思路看图就好，根据需求生成一张图片，之后用 VLM 输出 Scene graph，以及 retrieve 一些 3D 资产，之后进行优化，得到合理的布局。不过因为我觉得这方面本身他们也是在用 Objaverse，甚至 demo 中还出现过我常用的模型，这说明 Objaverse 确实很脏，大家选出来的资产也都大差不差了，同时在资产这方面也没有本质的突破。同时 scene graph 对于 Top 之类的关系的处理也往往不会特别合理。不过从结果上来看，demo 展现的还可以（虽然也能注意到纵向布局比较少，而且都不是密闭房间，一个理想的生成结果应该类似于光轮的房间资产）。

推荐指数：

LBM#

Arxiv ID 2507.05331

一个大规模的 pretrain 的 Diffusion based 模型

从效果上来看确实还不错，但是论文实在是有点乱，笔者并没有看得太懂。大概意思就是评估了大量的 scaling 以及预训练的效果，使用了大量的数据等。建议读者看下他们网站 ↗ 里的 demo，非常非常非常 impressive，但是确实我没太读出来 insight，懂的读者欢迎补充。

推荐指数：

UniVLA#

Arxiv ID 2506.19850

更加像是 Uni 的 VLA，使用离散 Token 进行自回归训练

使用 emu3 的 tokenizer 处理文本和图像，用 FAST 处理动作，使用离散 token 进行自回归训练。在输入的时候会使用 boi eoi boa eoa 来标记图像和动作的开始和结束。本身训练用 emu3 初始化之后，先用视频进行后训练，之后再用 Action 数据微调。Action 输出的过程中包括预测 image。将三个不同的模态进行联合训练，这种看上去更加符合 Uni 的思路。本身的效果看上去也还可以的。

推荐指数：

GR-3#

Arxiv ID 2507.15493

推荐指数：

SmolVLA#

Arxiv ID 2506.01844

推荐指数：

ThinkAct#

Arxiv ID 2507.16815

推荐指数：

VIDAR#

Arxiv ID 2507.12898

推荐指数：

AnyPos#

Arxiv ID 2507.12768

推荐指数：