

Paper Reading: Embodied AI 8
从一些 Embodied AI 相关工作中扫过。
MergeVLA#
Merge LoRA 进行多任务学习的 Pi-like VLA

MergeVLA 本身自己设计了模型结构,减去 self-attention 模块,并且把 tanh gate 改成 sigmoid gate,来让表征更加统一,从而对于 Action 这种不同 Task 之间可能有冲突的内容更加 Cross-task align。本身这些设计都是为了后续 Merge LoRA 做准备。本身对于很多的 Task 训练了很多的 LoRA 之后,可以通过若干 Merge 策略来整合,之后在推理的时候,使用一个 Mask 来选择性激活其中的部分参数,这个 Mask 由本来原生的 Task LoRA 和 Merged LoRA 的方向决定。然而对于 LoRA 相关的内容,问题是显然的,为什么要使用 LoRA 以及为什么要 Merge。毕竟事实上,目前大多数的 VLA 可以直接进行 Co-training,效果上也不错;而假如说我想要某一个 Task 的效果好,我直接训练这一个 Task 的 LoRA 就已经可以了,把不同的 Task 的 LoRA 混合在一起可以 Benefit 本身这一个 Task 的效果吗,论文中没有给出非常充分的解释。使用 LoRA merge 来进行一个类似于可持续学习的故事是说不通的,毕竟人间正道还是训练一个 co-training 基模,之后直接训练小 LoRA,对于多任务,直接手动 Route 加载对应 LoRA 就好。
Compressor-VLA#
通过减少计算量和视觉token数量来提高 VLA 效率

Compressor-VLA 本身目的就是削减 Vision Token 输入到类 OpenVLA 模型的数量,从而优化效率。本身通过一种 Language-condition 的方式来选择,且不说这样会不会损失细粒度信息,而只保留语义,从而带来可能得性能开销。这种方法似乎与 VLA 也没什么关系,放到任何模型都可以,思路也没什么意思。
VIPA-VLA#
使用人手数据进行空间预训练的 Pi-like VLA

VIPA-VLA 如图中所示,还是一个 VLM-VLA 的一个惯用的范式,也就是先使用一些 VQA 的所谓 Grounding 或者空间感知的数据进行预训练,然后之后在机器人数据中进行后训练。本身这里的故事可能偏向于使用 human data,但是确实使用的是 annotated 的数据,并且最后的用法也是作为 VQA 去使用,相对来说的意义就不是特别大。然后说回具体的内容,就是用 Human Data 组成了一些 VQA,之前在 Human 的预训练环节里面,输入人类的轨迹以及 Vision 和 Text,其中 Visual 里面用了一个 Cut3R 的 embedding 来增强一些可能的空间能力,然后和 ViT 进行 Fusion;到了后训练,就是正常的 VLA in A out 的设计。本身中规中矩,并没有给如何利用广大的 human data 一个好思路。
Openpi Comet#
如何将 Pi0.5 的 VLA 在 BEHAVIOR 挑战赛上进行工程优化

Openpi Comet 是 2025 BEHAVIOR 挑战赛的亚军方案,基于 进行了一个工程优化,可以说还是很有 insight 的。本身 BEHAVIOR 挑战赛是一个非常困难的挑战赛,并且第一名使用了一个很复杂的优化,但是相较而言,第二名的方案相当直接,并且很有启发性。具体来说,Comet 本身首先进行了 RFT 的 rollout,所谓 RFT,其实也就是将模型部署在仿真里面,然后闭环 rollout 数据,再用 rollout 的数据来训练,因为本身 bddl 可以检验成功,所以说可以有天然的验证器来筛选成功数据。然后之后的训练的过程中进行了消融,有一些关键结论。首先是对于控制,还是要尽量把每一次的轨迹都执行完,也就是所谓的 Temporal Horizon 的策略,而不要用 Action Ensemble 策略之类的;然后在这个情况下,Action 长度需要适中,因为太短会抖而且监督少不好学,太长的话闭环周期很长;然后输入模态只需要 RGB,不需要点云或者深度;分辨率输入的时候大一些好。本身还是很有意义的报告,很不错。
Evaluating Gemini Robotics Policies in a Veo World Simulator#
基于 Veo3 实现的 WM Simulator 方案以进行 VLA 评估

这篇论文由 Gemini 提出,旨在使用 Veo3 作为 WM Simulator 来评估 Gemini 的机器人策略。本身 Veo3 就是一个 Action-WM,之后在机器人数据上进行了一些训练。WM Simulator 很大的问题一直在于,如果本身 WM 在此之前没有经过大量的训练,或者说之后容易灾难性遗忘,那么很难做好诸如精细操作等内容,因为模型的训练数据中大多数的操作都是偏向于成功的,那么很有可能在作为 Simulator 的时候,就容易直接让物体“吸附”在手上从而强行成功。为了某个任务强行采样似乎也是不可持续的,这一现象在此之前的其他论文放出的 Demo 中我们经常可以看到,Veo3 这篇似乎并没有提出解决方案,比较遗憾。当然其还是一贯表现了 WM 的好处,也就是可以 Zero-shot 生成一些 unseen 的场景,并且进行评估。
VideoVLA#
同时预测 Action 和未来的 Image 的 DiT

VideoVLA 的方法比较直接,本身就是基于 CogVideoX-5B Pretrain 的 DiT 模型,然后同时预测两种类型的 token,一种是由 Video Encoder 编码的 Image token,另一种则是 Action。本身从效果上来说并不是很显著,不过也算是正在利用 Video WM 搭建 VLA 的一种尝试了,类比的话有点像是 OpenVLA,本身的动作嵌入方式不是很合理。
Video2Act#
基于 Video WM 的 Pi-like VLA 模型

Video2Act 如图中所示,从本质上来说其实是一个 Video WM 加上 DiT 的 Pi-like 范式。本身输入包含高分辨率图像以及长程图像两种,都经过 Hunyuan 作为 Encoder 并且把其中的 hidden state 和单帧过 image encoder 的 feature 进行 concat 作为 condition,然后由 DiT 预测 Action。本身其实思路还是比较偏向于传统的 Policy,只是使用了大模型,然后也是比较经典的高精度与长时序的双路信息输入,从性能上来说不算突出。
RealAppliance#
包含 100 个家电资产的数据集

RealAppliance 包含 100 个家电资产,并且其交互方式与家电本身的说明书一致,算是不错的资产数据集,如果仿真存在相关的需求,是可以参考并且使用的。
GR-RL#

GR-RL 提出了一个将通用视觉-语言-动作策略转化为复杂机器人任务专用系统的框架,通过强化学习对示范数据进行过滤、增强和强化,而非假设人类示范是最优的。该方法包括使用Q值作为进度指标过滤轨迹、应用形态对称增强以提高泛化能力,以及使用潜在空间噪声预测器进行在线强化学习。该框架实现了基于学习的策略自主系鞋带,成功率达83.3%,这是一项需要长时推理、毫米级精度和与可变形材料交互的复杂任务。
ManualVLA#

ManualVLA 针对视觉-语言-动作模型在处理需要精确规划和执行的长时程机器人任务时的局限性,提出了基于混合变换器架构的统一框架,能够生成包含图像、位置提示和文本指令的中间多模态”手册”。该系统包括规划专家从目标状态创建分步手册,以及基于3D高斯溅射的数字孪生工具包用于自动生成训练数据。在真实世界的乐高组装和物体重排任务中,ManualVLA 的平均成功率比之前的分层SOTA基线高32%。
SwiftVLA#

SwiftVLA 解决了视觉-语言-动作模型通常需要大量参数的问题,通过以最小开销增强轻量级模型的四维时空理解能力。该方法采用预训练的4D视觉几何变换器配合时间缓存,并引入用于未来预测训练的融合令牌,通过掩码-重建训练策略使4D分支在推理时可移除。SwiftVLA 在性能上匹配7倍参数规模的模型,同时推理速度提升18倍,在边缘设备上内存使用减少12倍。
MM-ACT#

MM-ACT 提出了一个统一的视觉-语言-动作模型,将文本、图像和动作集成在共享令牌空间中,并使用并行解码策略跨所有三种模态生成。该系统引入了”上下文共享多模态学习”训练方法,从共享上下文监督所有模态的生成,通过跨模态学习改进动作生成。在LIBERO模拟中达到96.3%成功率,在真实Franka机器人任务中达到72.0%,在双臂RoboTwin2.0任务中达到52.38%,其中跨模态学习额外贡献了9.25%的性能提升。
VLA-Arena#

本文提出了 VLA-Arena,一个用于评估视觉-语言-动作模型的开源基准框架,包含 170 个任务,分为安全、干扰、外推和长时序四大类别。该框架通过任务结构、语言指令和视觉观察三个维度进行结构化评估,并对语言和视觉扰动进行独立测试以验证模型鲁棒性。评估结果揭示了当前最先进模型的显著局限性:倾向于记忆而非泛化、鲁棒性不均衡、难以处理安全约束,且缺乏组合已学技能完成复杂多步骤任务的能力。
Robo-Dopamine#

本文提出了 Dopamine-Reward,一种基于 3400 多小时数据训练的通用奖励模型,用于解决机器人强化学习中奖励函数设计的难题。该方法通过步进奖励离散化(Step-wise Reward Discretization)实现结构化理解,并通过多视角奖励融合(Multi-Perspective Reward Fusion)克服感知局限性,同时配套提出了 Dopamine-RL 策略学习框架,采用理论可靠的奖励塑形避免优化误导。实验结果显示,该系统在仅用单条专家轨迹适配新任务后,仅需 150 次在线推演(约 1 小时真实机器人交互)即可达到 95% 的成功率,且具有良好的跨任务泛化能力。
Counterfactual VLA#

本文提出了 CF-VLA 框架,使自动驾驶系统能够通过反事实推理在执行前评估和调整计划动作,识别不安全行为。该方法首先生成总结驾驶意图的元动作(meta-actions),然后结合视觉上下文和元动作进行反事实推理,并通过 rollout-filter-label 流程从基线推演中挖掘挑战性场景进行高效训练。实验结果表明,CF-VLA 将轨迹精度提升了 17.6%,安全指标提升了 20.5%,且能够自适应地仅在困难驾驶场景中激活推理机制。
VLA-RAIL#

本文提出了 VLA-RAIL 框架,解决视觉-语言-动作模型在机器人执行中出现的抖动、停顿和卡顿问题,实现平滑、连续、高速的机器人运动。该框架采用异步操作机制,包含轨迹平滑器(Trajectory Smoother)和动作块融合器(Chunk Fuser)两大核心组件:前者使用多项式拟合消除单个动作块的噪声,后者在连续动作序列间保持位置、速度和加速度的连续性。在仿真和真实操作任务上的验证表明,VLA-RAIL 显著减少了运动抖动,提升了执行速度和任务完成率,是大规模部署 VLA 模型的关键基础设施。
UniTacHand#

本文提出了 UniTacHand,通过统一的空间-触觉表示实现从人手到机器人手的技能迁移,解决机器人灵巧操作中触觉数据收集成本高昂的问题。该方法使用 MANO 手部模型作为标准化框架,将人手(通过触觉手套)和机器人手的触觉信号投影到形态一致的 2D 表面空间,并通过对比学习将不同数据源对齐到共享潜在空间(仅需 10 分钟配对数据)。实验结果显示,该方法实现了从人类到真实机器人的零样本触觉策略迁移(即使对于未见物体),且结合人类和机器人训练数据时比仅用机器人数据更高效,为可扩展的灵巧操作触觉学习提供了新路径。
RoboCade#

本文提出了 RoboCade,一个通过游戏化远程遥操作平台来扩展机器人演示数据收集的系统,通过排行榜、徽章和进度可视化等元素提升数据采集的参与度和可及性。在三个操作任务上的测试表明,使用游戏化数据训练的策略在标准任务上性能提升了 16-56%,用户研究证实新手用户认为游戏化界面的满意度比非游戏化版本高约 24%。该工作证明游戏化可以作为一种有效且可扩展的方法来收集演示数据集,同时保持用户参与度和积极性。
StereoVLA#

本文提出 StereoVLA,通过引入立体视觉系统增强机器人视觉-语言-动作模型的空间感知能力。该方法设计了几何-语义特征提取模块,将双目视差的空间信息与单目语义理解相结合,并添加深度估计组件加速训练。实验表明该方法在动作预测性能上显著优于现有方法,且对相机位置扰动具有良好鲁棒性。
DeFM#

本文提出了 DeFM,一种完全基于深度图像训练的自监督基础模型,旨在为机器人应用提供几何和语义表示。该模型在包含 6000 万张深度图像的数据集上使用 DINO 风格的自蒸馏目标训练,并引入新颖的输入归一化策略以保持多尺度的度量意识。DeFM 在深度分类、分割、导航、运动和操作等基准上实现了最先进性能,展示了从仿真到现实环境的强泛化能力,同时可蒸馏为适合资源受限机器人系统的紧凑模型。
Sim-and-Human Co-training#

本文提出了 SimHum 协同训练框架,利用仿真和人类数据之间的互补性:仿真提供机器人动作的运动学先验,人类数据提供真实世界的视觉先验。基于这两种互补先验,该框架在相同数据收集预算下性能比基线提高高达 40%,在仅使用 80 个真实数据的情况下获得 62.5% 的 OOD 成功率,超越仅使用真实数据的基线达 7.1 倍。
ALRM#

本文提出了 ALRM(Agentic LLM for Robotic Manipulation),一个基于 LLM 的代理框架,通过 ReAct 风格的推理循环将策略生成与代理执行相结合。该框架支持 Code-as-Policy(直接生成可执行控制代码)和 Tool-as-Policy(迭代规划与工具执行)两种互补模式,并引入了涵盖 56 个任务的仿真基准。实验表明 Claude-4.1-Opus 是闭源最佳模型,Falcon-H1-7B 是开源最佳模型。
AC²-VLA#

本文提出了 AC²-VLA,一个面向 VLA 模型的动作上下文感知自适应计算框架,根据视觉观测、语言指令和先前动作状态来调节计算量。该框架在时间步间自适应执行认知重用、标记修剪和层选择性执行,并引入动作引导的自蒸馏方案实现跨任务的结构性稀疏化。实验表明 AC²-VLA 实现最高 1.79 倍加速,FLOPs 减少至密集基线的 29.4%,同时保持相当的任务成功率。