Axi's Blog
Paper Reading: Embodied AI 3Blur image

A_0#

Arxiv ID 2504.12636

训练 Diffusion 进行稀疏轨迹预测,之后 rule-base 执行

总的来说不难理解,就是用 Diffusion 预测了 2D 的稀疏轨迹,然后用 GraspNet 预测第一帧的 Grasp Pose,之后的用 VLM 判断高度,并且进行平滑。总的来说用专用模型做了通用模型可以做的事情,但是或许可以刷上去性能吧。如何做 Work 了其实是值得细品的,比如说选择的稀疏轨迹的点的数量等,但是总体中规中矩。

推荐指数:

OneTwoVLA#

Arxiv ID 2505.11917

自动切换 Reasoning 和 Action 的 VLA 模型

比较有意思的 VLA 工作,可以自由切换 Reasoning 和 Action 的能力,本身就是根据输出 Begin Token,也就是 BORBOA 来决定处于哪个模式。本身假如说每一个 Action Chunk 执行完之后,还没有执行完 Action,VLM 那一部分会直接输出 BOA 然后继续输出 Action。

整体的模型的流程就是用 OpenPi 的方式,但是支持了动态切换 Reasoning 和 Action。本身 Reasoning 的内容也值得参考,包括四类:详细场景描述,即突出任务相关物体的位置;高层计划,即逐步列出完成任务的操作;历史总结,即保持上下文感知;下一步计划,即接下来需要执行的操作。

本身方法还提供了一个生成 Reasoning 数据的 Pipeline,可以理解为就是 Gemini 负责 Reasoning,然后 Flux 1.x 负责图片生成。

推荐指数:

Diffusion Policy#

Arxiv ID 2303.04137

Diffusion for Action Policy

经典之作,用 Diffusion 做 Action 预测,输入和输出都是 Action Chunk,支持 CNN 以及 DiT 的两种变体,没啥好说的。

推荐指数:

RDT-1B#

Arxiv ID 2410.07864

大 DP

训练的超大 DP,用了叫做 Unify Action Space 的东西,但是貌似现在都是已经是 Latent Action 流行了,本身貌似还算 Work。

推荐指数:

Octo#

Arxiv ID 2405.12213

History + Hidden state transformer 接 Action head

比较正常的一篇。语言过 Text encoder,图像过 CNN,组成 OBS Chunk,可变长度,输出 Readout Token,类似于一种 hidden state,后面接一个 action head。在切换本体之类的时候,直接换 action head 就好。比较经典的设计。

推荐指数:

CogACT#

Arxiv ID 2411.19650

VLM 输出 learnable token,之后接 DiT

VLM 之后输出包含一个 Cog Feature,跟一个 DiT 的 DP,整体就是类似之前 Bert 或者 ViT 或者什么的思路,用这个 Token 表征整合后的信息,然后让 DP 去生成。

推荐指数:

Helix#

双系统模型

最早做双系统的,两个模型分别推理,频率不同。从 demo 上,一个模型控制两个上身,比较 impressive,但是没有相关的 report,不评价。

推荐指数:

FAST#

Arxiv ID 2501.09747

进行 DCT 的 Tokenizer

因为离散 Action 进行量化的方法生成的 Action token 效果不好,尤其是采样率越高,越容易退化为复读机,因此提出了 FAST Tokenizer。流程是先归一化 Action,之后 DCT 变换,按低频优先顺序展平不同维度的数据,然后用 BPE 压缩为稠密,这些操作都是可逆的。在经历上述操作之后,收敛效率更高,性能不掉。

推荐指数:

Magma#

Arxiv ID 2502.13130

大型的包含 Action 以及中间表征 SoM/ToM 的 pretrain 模型

如图所示,大量训练。

推荐指数:

ChatVLA#

Arxiv ID 2502.14420

MOE VLA

因为之前的模型在理解和动作之间会冲突,所以加入了共享 Transformer 但是不共享 FFN 的 MOE,并且两阶段训练,第一阶段只使用机器人数据,第二阶段加入推理数据 co-train。

推荐指数:

ChatVLA-2#

Arxiv ID 2505.21906

Dynamic MOE VLA

前作的 MOE 是静态的,也就是根据训练选择激活哪些,这里使用动态 MOE,也就是由路由网络来选择激活哪些 FFN,并且在后面接了一个 Action Expert。大家逐渐都开始发现,不能让 VLM 直接输出 Action,而是应该是双层模型,不然会有很大的代价,即损失 VLM 的通用能力。

ChatVLA2 同时把本来的推理信息嵌入了 Action Expert 中。这次的两个阶段,第一阶段是 co-train,第二阶段 freeze VLM 然后训练 Action。这里一方面也是因为本来的模型,比如说 Action Expert 等,都是经过预训练的。

推荐指数:

RoboBrain#

Arxiv ID 2502.21257

用了两个 LoRA 大量训练的 VLM

主要加入了 Grounding 以及 Trace 数据进行 finetune 的 Qwen,加入了两个 LoRA 分别处理 Grounding 和 Trace 的任务,本身 VLM 可以做 Planning。

推荐指数:

CoT-VLA#

Arxiv ID 2503.22020

生成图片再用图片作为 Condition 生成动作的 VLA

如同 tldr 所说,本身还是正常的 VLA 的配置。本身的思路是先生成图片之后再使用图片来作为 condition 来生成动作。这个想法确实看上去十分的诱人,但是事实上并非如此。首先其本身使用的是 VILA-U 这一模型,虽然说我对于 Unified 领域并不是那么了解,本身对于语言与文本模态同时在理解与生成进行 alignment 貌似已经存在 trade off,况且还要加入动作,对齐过于草率。同时在连续的生成中,误差的积累也不可忽略。综上所述感觉本身看上去愿景不错,但是需要做的更加细致些。

推荐指数:

Interleave-VLA#

Arxiv ID 2505.02152

Interleave 输入的 VLA

大概的意思就是改成输入为 put <image of apple> on the <image of plate> 的 VLA,早期的 VIMA 其实做过类似的事情。从结果上有效果。

推荐指数:

Knowledge Insulating Vision-Language-Action Models#

Arxiv ID 2505.23705

Pi 关于 VLA 的技术报告内容

值得一看的技术报告,推荐读者阅读。主要是提出了几种好用的方法。包括:联合训练 autoregressive 和 flow matching;使用 VLM 数据 co-training;禁止动作专家的梯度回流到 VLM 主干;使用 FAST 这种编码器而非 naive 的离散编码。

推荐指数:

Hi Robot#

Arxiv ID 2502.19417

双系统 VLA

本身就是描述了一种双系统的图景,并且做出来了。System 2 是 VLM,system 1 是 VLA,并且是两个系统同时推理并且可以异步。有意思的或者可以感兴趣的反而是一些任务的设置或者说认为 system 2 需要具备的能力,假如你也对 system 2 感兴趣,可以参考。同时还包括一些如何设置模型的可供参考,比如说对于 VLM 何时被触发,可以每秒触发一次以及在有语音唤醒的时候触发。本身还可以。

推荐指数:

Scenethesis#

Arxiv ID 2505.02836

Image generation + 约束生成 3D 场景

因为具身这边涉及 3D 场景资产,所以穿插一篇这个。Nvidia 做的,本来以为会非常的 promising,但是还是在正常范围内,基本的思路看图就好,根据需求生成一张图片,之后用 VLM 输出 Scene graph,以及 retrieve 一些 3D 资产,之后进行优化,得到合理的布局。不过因为我觉得这方面本身他们也是在用 Objaverse,甚至 demo 中还出现过我常用的模型,这说明 Objaverse 确实很脏,大家选出来的资产也都大差不差了,同时在资产这方面也没有本质的突破。同时 scene graph 对于 Top 之类的关系的处理也往往不会特别合理。不过从结果上来看,demo 展现的还可以(虽然也能注意到纵向布局比较少,而且都不是密闭房间,一个理想的生成结果应该类似于光轮的房间资产)。

推荐指数:

LBM#

Arxiv ID 2507.05331

一个大规模的 pretrain 的 Diffusion based 模型

从效果上来看确实还不错,但是论文实在是有点乱,笔者并没有看得太懂。大概意思就是评估了大量的 scaling 以及预训练的效果,使用了大量的数据等。建议读者看下他们 网站 里的 demo,非常非常非常 impressive,但是确实我没太读出来 insight,懂的读者欢迎补充。

推荐指数:

UniVLA#

Arxiv ID 2506.19850

更加像是 Uni 的 VLA,使用离散 Token 进行自回归训练

使用 emu3 的 tokenizer 处理文本和图像,用 FAST 处理动作,使用离散 token 进行自回归训练。在输入的时候会使用 boi eoi boa eoa 来标记图像和动作的开始和结束。本身训练用 emu3 初始化之后,先用视频进行后训练,之后再用 Action 数据微调。Action 输出的过程中包括预测 image。将三个不同的模态进行联合训练,这种看上去更加符合 Uni 的思路。本身的效果看上去也还可以的。

推荐指数:

GR-3#

Arxiv ID 2507.15493

推荐指数:

SmolVLA#

Arxiv ID 2506.01844

推荐指数:

ThinkAct#

Arxiv ID 2507.16815

推荐指数:

VIDAR#

Arxiv ID 2507.12898

推荐指数:

AnyPos#

Arxiv ID 2507.12768

推荐指数:
Paper Reading: Embodied AI 3
https://axi404.top/en/blog/paper-reading-eai3
Author 阿汐
Published at July 22, 2025
Comment seems to stuck. Try to refresh?✨