Axi's Blog
Paper Reading: Embodied AI 11Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

Thousand-GPU Embodied Training Recipe#

Arxiv ID 2603.11101
幻觉翻译 2603.11101

把 GR00T-N1.5 训练时间从 15h 压到 22min 的千卡基建

这篇是工程报告,价值在系统优化的具体细节而不是算法。主要 stack:上层用 Ray 驱动的弹性数据湖 + Yunhai 高性能存储 + 3.2T RDMA 解 I/O 瓶颈(之前会造成 NCCL timeout);中层 variable-length FlashAttention 去掉 padding 浪费(188% 提速)+ data packing 把多样本塞同序列 + π₀.₅ 架构级改造(165%)+ FP8 block-wise 量化(140%);上层”RL-VLA3”三级异步把 env 交互 / trajectory 生成 / policy 更新解耦,吞吐再加 126%。在 GR00T-N1.5 上单轮训练 15h → 22min(40x)。

定位很清楚——把 LLM 训练社区已经成熟的工程套路(async pipeline、FP8、packing、FlashAttn)系统化搬到 VLA。算法侧没有新东西,但是大规模 VLA 训练社区里这种 end-to-end 的工程报告并不多见,做基建的可以直接当 cheat sheet。Limitation 也很坦白:128-256 卡之后 sublinear,通信开销吃掉收益,所以”千卡”在实际部署里更多是 marketing 词,真正能拿到的高效率区间还在几百卡量级。

推荐指数:

Ψ0\Psi_0#

Arxiv ID 2603.12263
幻觉翻译 2603.12263

Ego 视频预训 + 机器人后训 + AMO 底层控制的三层 Humanoid VLA

Ψ0\Psi_0 反对一个常见做法:把人类 ego 视频和真机数据 naive co-training,理由是两者运动学差距太大,混训会污染表示。它给出的解法是分段:先在 800 小时 EgoDex 上做 next-action 预训(48 DoF task space),再在 31 小时 Humanoid Everyday 上用 Flow Matching 做后训(36 DoF joint space),最后任务级 30 小时遥操作微调。System 上是三层:System-2 是冻结的 Qwen3-VL-2B、System-1 是约 500M 的 MM-DiT 作 Flow Matching action expert、System-0 是 AMO 下身 RL controller。论文 claim 用了大约 Pi-0 / Pi-0.5 一成的真机数据,成功率反而高 40%。

跟 Pi-0 / Pi-0.5 的关键差别有两点:用 MM-DiT 而不是普通 DiT 做 VL-action fusion、用训练期 RTC 而不是测试期 guidance 解推理延迟。整体属于 Humanoid VLA 里比较有自己技术取舍的工作。Limitation 论文坦白:算力卡死了进一步 scale 人类视频和真机数据,硬件 payload 限制更复杂的 manipulation 任务范围,所以”少数据多收益”这个 claim 在更大数据 / 任务规模下还没有验证。

推荐指数:

TacVLA#

Arxiv ID 2603.12665
幻觉翻译 2603.12665

紧凑触觉 token + 接触感知 gating 的 PaliGemma VLA

TacVLA 差异化在触觉表征:之前的 tactile-VLA 多把触觉当 image-like 输入(密集像素),TacVLA 把 15×8 触觉阵列用 MLP + 2D 位置编码压成 36 个紧凑 token,并加一个 contact-aware binary gating——只在检测到接触时才让触觉 token 参与 attention,否则直接 zero out。底模是 PaliGemma + Pi-0.5 风格 Flow Matching action expert,OpenPI 上 LoRA 微调 1 万步。

跟 EAI10 内已经覆盖的几篇触觉 VLA 比有清晰位置:FD-VLA 是不要真传感器、用蒸馏假装力 token;FAVLA 是双频 async + 力反馈直接进特征;UniForce 是跨传感器统一表征。TacVLA 的取舍是”真传感器、压缩到少 token、靠 gating 抑制无关信号”。Limitation 论文自己点出来很关键:binary threshold 是 hard heuristic,根本不是 learnable 的,gradually 调整模态重要性需要 learnable gating;以及触觉传感器空间分辨率低天然限制细粒度 contact 形状推理;并且只测短程接触任务。整体设计 OK,但是 binary gate 这一步的 hack 性质是后续工作要解决的明显问题。

推荐指数:

ST-VLA#

Arxiv ID 2603.13788
幻觉翻译 2603.13788

3D 轨迹 + 平滑空间 mask 作中间表示的层级 VLA

ST-VLA 的 motivation 比较明确:现有 hierarchical VLA 用 2D 轨迹或 mask 当中间表示,丢掉 3D 几何与时间连续性。它把中间表示升维到 4D(3D 轨迹 + 时间),核心两件事——把 2D guidance lift 到 3D path 并以 cylinder 围出 spatial tube;用 cross-modally aligned smooth mask 替代 hard mask 让 boundary 平滑,避免下游 policy feature 抖。架构是 Qwen3-VL-4B 微调成 ST-VLM 出 sub-instruction + 3D trajectory,下游接专用 3D policy(3DDA / 3DFA),数据集 ST-Human 30 万人类操作 episode、14 任务、4.3M 样本带 2D/3D/4D 多层标注。

跟 RT-Trajectory / Track2Act 这类 2D 轨迹方法比明显是个升维;跟纯 3D value map 比保留了显式时间结构。一个值得注意的设计是 smooth mask 可以和 vanilla policy 兼容、不需要每个 policy 重训,这让方法可以作为外挂中间层使用。Limitation 论文坦白:单视图 + 重度依赖 SAM2,clutter 场景里分割崩了整个流程就崩;扩 multi-view 还是 future work。整体在 hierarchical VLA 的中间表示设计上做得比较扎实。

推荐指数:

ForceVLA2#

Arxiv ID 2603.15169
幻觉翻译 2603.15169

Cross-Scale MoE + 力 prompt 引导任务分解的 hybrid 力位 VLA

ForceVLA2 是 ForceVLA 续作,关心的是把力从单纯感知输入升级为主动闭环控制信号。架构双层:长程层用 PaliGemma/SigLIP 接力 prompt 引导任务分解,短程层多模态 encoder 吃 6D pose + 6D 力,并且让力信号 bypass 上层 VLM fusion 直接进 reactive 通路;输出层是 Cross-Scale MoE 在 visual / state / force 专家间路由,最终走 Flow Matching 出关节位置-力联合命令 + subtask 进度。训练数据是用带力反馈的 GELLO 遥操作的 1000 条轨迹覆盖 5 个接触任务。

EAI10 这一卷里面力相关 VLA 多得有点扎堆:FD-VLA 直接蒸出假力 token 不要传感器、FAVLA 做双频 async + 力进特征、TacVLA 用 binary gating 控触觉 token、CompliantVLA-adaptor 在外面挂 VIC。ForceVLA2 的位置是”真力 + 力 bypass + MoE 路由”,这个 force-bypass 设计逻辑上是对的——力闭环就该绕开 VLM 的高延迟通路。但是论文没有 head-to-head 比这些同期力相关 VLA,只对到 π₀ / π₀.₅ / 自家 ForceVLA,66% vs 18% / 31% / 35%,所以”力为什么有用”被对比清楚了,“我和 FD-VLA / FAVLA 谁更好”是没回答的。Limitation 论文自己点出:力交互对摩擦 / 接触建模太敏感,仿真结果不可信,所有验证都是真机 1000 条轨迹规模——意味着这条路 reproducibility 一直是问题。

推荐指数:

OmniReset#

Arxiv ID 2603.15789
幻觉翻译 2603.15789

用多样化初始 state 分布替代 curriculum / demo 的暴力 RL

OmniReset 的赌注是”不用 curriculum、不用 demo、不用 per-task reward shaping,只要 reset 状态分布够多样、batch 够大、并行够暴力,dexterity 就会涌现”。具体做法是预先 sample 出覆盖 reaching / near-object contact / stable grasp / near-goal 四种交互模式的可行 reset 状态,缓存在 GPU 上,PPO + asymmetric actor-critic(actor 受限观测、critic 用特权信息)+ gSDE 探索噪声 + 任务无关的 sparse + dense reward 混合,超参跨任务全固定。最后用 student-teacher distillation 把 state-based expert 蒸到 RGB visuomotor 上(8 万条仿真轨迹 + 重 randomization)。

核心 insight 实际上是把 RL exploration 难题换成了 reset state 多样性问题,逻辑上说得通:训练分布只要覆盖 inference 时会遇到的状态,sparse reward 就能传得起来。Limitation 也很直接——整个 pipeline 依赖一个 grasp sampler 给出可行 reset,复杂非凸物体上 sampler 一崩整个 reset 分布就毁;以及 sim-to-real gap 大,Drawer Insertion 仿真 90% 真机只剩 15%,RGB student 也明显弱于 state expert。当作”如果有强仿真 + 强 grasp 采样 + 大算力”的暴力 RL 配方参考是合适的。

推荐指数:

MolmoB0T#

Arxiv ID 2603.16861
幻觉翻译 2603.16861

Molmo2 + 1.7M 纯合成数据零样本到真机的 VLA

MolmoBot 想直接挑战社区的”Sim-only 训不出 work 的真机 VLA”这个共识:放弃真机数据,全靠 MolmoBot-Engine 的程序化数据管线生成 170 万条合成轨迹,覆盖 9.4 万个程序化生成房屋 + 1.1 万个独立物体,重 domain randomization 但是不追求 photorealism,赌的是”环境多样性 >> 渲染真实度”。架构给了三档:MolmoBot 是 Molmo2-4B + DiT Flow Matching action head(cross-attn 接 VLM 中间 hidden state)、MolmoBot-Pi0 是相同结构但用 π₀ 拓扑做对照、MolmoBot-SPOC 是轻量 Transformer + 离散 quantile bin 动作,给端侧部署。

价值在于 zero-shot 真机的 claim 如果稳,这是对”必须真机大数据”主流路线的一次实质打击。Limitation 也写得直接:完全被仿真器能力卡死,只能做刚体 + articulated,contact-rich / 软体根本进不来——这恰好是 VLA 现在最在意的方向。所以这条路的现实定位是”在仿真器 cover 得到的任务范围内,多样性可以替代真机数据”,而不是”sim-only 解决一切”。

推荐指数:

OmniVTA#

Arxiv ID 2603.19201
幻觉翻译 2603.19201

21K 真机触觉数据 + 接触演化预测 + 60Hz 闭环的 visuo-tactile 框架

OmniVTA 押的不是 fancy fusion 而是数据规模 + 闭环:OmniViTac 数据集 21K 真机轨迹覆盖 86 任务 / 100+ 物体,架构四件套——自监督 tactile encoder、双流 contact 演化预测、接触感知 policy、60Hz tactile 反馈控制器。“world model” 的 framing 实际指 short-horizon next-contact rollout,policy 拿预测和实测残差驱动高频 corrector。

跟 EAI10/11 卷里堆起来的 FAVLA / TacVLA / FD-VLA / ForceVLA2 比,OmniVTA 的取舍不是”加一路力 token 进 VLM fusion”,而是把触觉做成独立的预测/反馈链路,VLM 路径和 tactile 路径异步运转。21K 真机数据规模在触觉这一档是大档位——比 TacVLA / ForceVLA2 都多一个数量级,作为后续触觉 VLA 的 pretraining corpus 是有用的。Limitation 在 “world model” 名字给得有点重,dual-stream prediction 实质是 short-horizon contact 预测不是 latent dynamics(和 Cosmos-Policy / GR00T-Dreams 不在同一档),以及 60Hz 控制器在 deployment 板子上的真实跑通量化论文没给。

推荐指数:

VAMPO#

Arxiv ID 2603.19370
幻觉翻译 2603.19370

把 GRPO 搬到 diffusion-based video action model 的后训方法

VAMPO 押的是把 LLM 后训那一套(GRPO)搬到 video action model 的 denoising 上。把多步 denoising 重写成 sequential decision,Euler Hybrid Sampler 只在第一步注入 stochasticity 让 policy gradient tractable 估,reward 用 expert 在 latent space 的 visual dynamics 当 verifiable signal——不是 adversarial、不是 likelihood,本质就是 GRPO 那套 group-relative。卡的是 video predictor 用 likelihood 训出来”plausible 但不精准”这个对 manipulation 致命的 objective mismatch。

定位上是 RDT2 / Cosmos-Policy / VPP 这条 video-as-action 路线的后训补丁。社区已经认了”video pretraining 给 robust prior 但不给精确控制”这个 trade-off,VAMPO 是第一批明确用 RL 后训去修这个 mismatch 的工作之一。值得跟踪的点:single-step stochastic 的 trick 在更长 horizon / 更高维 action 上是不是会 collapse、verifiable latent reward 跨任务 transfer 是不是稳。比 EAI11 里 OmniReset 那种”硬上 PPO + dense+sparse hybrid reward”干净——把 reward design 从 task shaping 转移到 representation similarity 上。

推荐指数:

VP-VLA#

Arxiv ID 2603.22003
幻觉翻译 2603.22003

把目标物体 / 终点 render 成 crosshair / bbox overlay 的 hierarchical VLA

VP-VLA 走 hierarchical 但中间表示选了一条比较取巧的路:System 2 Planner 解析指令、定位目标 / 终点,把空间锚点 render 成 crosshair / bounding box 直接画在观测图像上,下游 System 1 Controller 看着 overlay 后的图像执行;planner 训练时加 visual grounding aux loss。在 Robocasa-GR1-Tabletop / SimplerEnv 上对 QwenOFT、GR00T-N1.6 涨 5-8%。

跟 ST-VLA 是一对很好的对照组——同样是 hierarchical VLA 的中间表示选择,ST-VLA 把表示往 4D 升(3D 路径 + 平滑 mask)、VP-VLA 把表示往 controller 现成视觉接口靠(2D image overlay)。VP-VLA 的优势是不需要重训 controller、可以挂在 vanilla VLA 外面用;劣势就长在这个取舍上:crosshair / bbox 是 2D 投影,contact-rich / occlusion / 多物体场景能传的信息天然受限,遇到三维结构复杂的任务 information bottleneck 比 ST-VLA 严重。是个工程取舍合理但 ceiling 容易看见的设计。

推荐指数:

World Action Model vs VLA Robustness Study#

Arxiv ID 2603.22078
幻觉翻译 2603.22078

LIBERO-Plus / RoboTwin 2.0-Plus 上对 WAM 和 VLA 做扰动鲁棒性 controlled study

不是方法论文,是 controlled study:在 LIBERO-Plus 和 RoboTwin 2.0-Plus 上对 World Action Model(LingBot-VA、Cosmos-Policy)和 VLA(π₀.₅ 等)做 visual / language 扰动下的鲁棒性对比。结论是 WAM 普遍更鲁棒(LingBot-VA RoboTwin 2.0-Plus 74.2%、Cosmos-Policy LIBERO-Plus 82.2%),VLA 想追平需要更大、更杂的 robotic 数据;混合 video prior 的 hybrid 方案落在中间。

价值在把社区里口口相传的”video pretraining 给鲁棒 representation”做成 controlled comparison,给后续 VLA / WAM 选型时一个可以引的数据点。和 EAI 系列里 RDT2 / Cosmos-Policy / VPP 的发展路径相互佐证——video prior 主要 buy 的是 robustness 不是 task fitting。论文本身没新方法,但作为后续工作里 motivation / related work 的 benchmark 引用是合理的,不该被当方法论文读。

推荐指数:

UniDex#

Arxiv ID 2603.22264
幻觉翻译 2603.22264

50K + 8 dexterous hand 的 cross-embodiment dataset + FAAS 共享动作空间

UniDex 是 dexterous 这一支的 dataset + foundation 套件(CVPR 2026 接收):50K+ 轨迹覆盖 8 种 dexterous hand(6-24 DoF),来源是 ego 视频 + human-in-the-loop retargeting 转成机器人轨迹,关键 abstraction 是 Function-Actuator-Aligned Space (FAAS)——不指望关节角度对齐,只指望”功能”对齐(指尖 pinch 对 pinch、palm 对 palm)。policy 是 3D pointcloud(mask 掉人手)输入的 VLA,配套 UniDex-Cap 是便携 RGB-D + 手姿采集站。报 81% 平均 task progress 在 tool-use 上。

定位是 EgoDex / DexMimicGen / Open-Television 一支的延伸,但 FAAS 这层 abstraction 是这条路里少见认真做 cross-embodiment 的:之前的 retargeting 多停留在 fingertip pose,UniDex 把 functional alignment 做成 explicit 共享空间,理论上能让 policy 跨手 transfer。和 Ψ0\Psi_0 用 EgoDex 800h 直接预训 humanoid 的路线对照——一个押 humanoid full-body retargeting,一个押手部 functional retargeting,都在解 “real robot data 太贵”。Limitation 是 human-in-the-loop retargeting 这一步 不 scale,hand-object contact plausibility 在复杂物体上的保持精度论文也没量化——这是后续工作要补的硬骨头。

推荐指数:

CaP-X#

Arxiv ID 2603.22435
幻觉翻译 2603.22435

Code-as-Policies 范式的系统化 audit + RL 强化

CaP-X 不是新 VLA,是把 Code-as-Policies 这条 2022 年的老路线在 LLM 强化的 2026 重新做 audit:CaP-Gym 仿真环境 + CaP-Bench 任务集 + 12 个 frontier VLM 横评 + CaP-Agent0(training-free baseline,靠 multi-turn / structured execution feedback / visual differencing / 自动 skill 合成 / ensemble reasoning 把 reliability 推到 human-level)+ CaP-RL(verifiable reward)。核心结论:code-as-policy 性能高度依赖人类预先抽象出来的 perception/control primitive,往 raw primitive 退一步 reliability 显著掉。

读完的实质 take 挺残酷:方向上证伪了”frontier VLM 直接出可执行 code 操作机器人”这种 demo-friendly narrative。CaP-Agent0 那一堆 trick(multi-turn、execution feedback、visual diff、ensemble)能把 reliability 推上去,但本质上这些 trick 是在替代被去掉的 designer scaffold——code agent 的 ceiling 在那里没动。这种系统化 audit 类工作比单点 demo 论文更有 reference value,看了之后能直接干掉一类 “VLM-as-controller” 的 baseline 假设。

推荐指数:

VTAM#

Arxiv ID 2603.23481
幻觉翻译 2603.23481

video transformer + tactile retrofit,无需 paired tactile-language 数据

VTAM 路线和 EAI11 里几篇触觉 VLA 不一样:不从 PaliGemma + Pi-0.5 加 force token 开始,而是从预训 video transformer 开始,用 lightweight modality transfer finetuning 把 tactile 流加进来;为了防止 visual latent 主导 cross-modal attention,加 tactile regularization loss 强制 attention balance。卖点是不需要 paired tactile-language 数据。报 90% 接触富任务成功率、potato chip pick-and-place 比 π₀.₅ 高 80%。

跟 TacVLA(紧凑 token + binary gating)、FAVLA(双频 async)、ForceVLA2(Cross-Scale MoE + 力 bypass)三条路对照,VTAM 押的是”video prior 比 VLM prior 更适合作为触觉 retrofit 的底座”。potato chip vs π₀.₅ 是这卷里少见的直接 head-to-head 数据点。Limitation 跟 TacVLA 是同病——tactile regularization 是手工的 cross-modal balance constraint,不是 learnable 的 modality importance;且和同期触觉 VLA 之间没 controlled comparison,“video 底座 vs VLM 底座”哪个真更好这卷还是没定论。

推荐指数:

MMaDA-VLA#

Arxiv ID 2603.25406
幻觉翻译 2603.25406

把 language / image / action 全部 tokenize 进 discrete diffusion 的统一 VLA

MMaDA-VLA 把 unified discrete tokenizer 这条路(LWM / Show-o / Unified-IO)真正在 VLA 上做出来:text 走 LLaDA tokenizer、image 走 MAGVIT-v2、action 每维 256 bin 离散化,single backbone + masked token denoising 一次性 parallel 生成 future goal observation 和 action chunk,inference 时 iterative denoise 加 confidence-based remask,做 order-free refinement。LIBERO 98% / CALVIN 4.78 是这一卷顶部档位。

意义在于把 VLA 的范式从 hierarchical(System2+System1)和 autoregressive(RT-2 / OpenVLA / GR00T)两条主流加了第三条 unified discrete diffusion。卖点不是新 architecture 而是新 token space——language、vision、action 在一个空间里 jointly denoise,长 horizon 一致性可以靠全局 refinement 修,不像 AR 那样一旦犯错就传到底。配 Fast-dVLA 那一类 inference 加速看才完整:discrete diffusion 的 denoising 步数代价是这条路的天花板。如果 Fast-dVLA 那种工作能把 inference 推到 30Hz,MMaDA-VLA 这条路就有真实部署可能。

推荐指数:

Fast-dVLA#

Arxiv ID 2603.25661
幻觉翻译 2603.25661

block-wise KV cache + diffusion forcing + asymmetric distillation 把 dVLA 推到实时

Fast-dVLA 是 MMaDA-VLA 的配套加速工作:discrete diffusion VLA 的 inference 受 denoising 步数拖累远低于 30Hz 实时门槛。三件套——block-wise sequential generation 拿到 KV cache 复用、diffusion forcing 让后续 block 不用等前 block 完成 denoise(多 block parallel decode 不同 noise level)、asymmetric distillation 从已经训好的 dVLA 蒸到加速版。报 2.8-4.1× speedup 不掉点。

定位非常清楚:discrete diffusion VLA 这条路(MMaDA-VLA、LLaDA-style)的最大 deployment 障碍就是 inference cost,Fast-dVLA 把 LLM 那边已经成熟的 speculative decoding / KV cache / block parallel 那一套整体搬过来。和 RTC(test-time guidance)、Ψ0\Psi_0 的训练期 RTC 不是一类——那两条是 single-step 的 control-loop trick,Fast-dVLA 是 generation-loop 的真算力优化。一个 path 的 verdict:discrete diffusion VLA 想从 LIBERO benchmark 走到真机 30Hz,必须有 Fast-dVLA 这一档工作。

推荐指数:

VLA-OPD#

Arxiv ID 2603.26666
幻觉翻译 2603.26666

expert teacher 在 student on-policy trajectory 上做 dense token-level 蒸馏的 VLA 后训

VLA-OPD 是把 LLM 后训那一套 on-policy distillation(GKD / DistillBC 之类)搬到 VLA:不要环境 reward,让 expert teacher 在 student 自生成 trajectory 上做 dense token-level 监督,关键设计在 KL 形态选择——Reverse-KL 取 mode-seeking 避开 Forward-KL 的 mode-cover 和 Hard-CE 的 entropy collapse,filter epistemic uncertainty。LIBERO + RoboTwin 2.0 上验证。

本质是用 teacher 替 reward function 解 RL 的 sample efficiency 问题,又用 on-policy student trajectory 解 SFT 的 distribution shift 问题,是一个 LLM 训练社区已经验证的范式被 VLA 抄过来。比起 ForceVLA2 / OmniReset 那种”硬上 PPO + asymmetric AC + dense reward shaping”的 RL 路线,VLA-OPD 对 reward design 不敏感,更适合 long-horizon。问题在赌 expert teacher 的 quality——teacher 弱 student 学不动,teacher 强又得先有 teacher,所以 chicken-and-egg 这一关在 VLA 里比 LLM 棘手(LLM 有 GPT-4 当 teacher,VLA 没有公认的 universal 强 teacher)。是个范式正确但 deployment 上要先解决”哪儿来的 teacher”的工作。

推荐指数:

Heracles#

Arxiv ID 2603.27756
幻觉翻译 2603.27756

state-conditioned diffusion 当 humanoid reference tracking 和 physics tracker 之间的 middleware

Heracles 在 humanoid control 上的设计取舍:把 diffusion 不当生成器、当 controller 中间层。state-conditioned diffusion 夹在 reference motion 和 physics tracker 之间,状态正常时退化成 identity map 保 tracking fidelity、状态显著偏离时切到 generative recovery 合成一段 anthropomorphic 恢复轨迹再回到参考。

和 EAI 之前的 AMO / OmniH2O / ExBody 这种纯 RL tracking 路线明显分流。卖点其实就一个 insight:把”rigid tracking + 故障 fall over”升级成”tracking + diffusion 兜底”,把 motion prior 当 fail-safe。Ψ0\Psi_0 用 AMO 当 System-0 走 RL 路线,Heracles 这种 diffusion-as-middleware 是另一条解法,能不能跟 humanoid VLA stack(Ψ0\Psi_0 类)集成是后续看点。Limitation 在实时性——humanoid control 要 50Hz+,diffusion 哪怕 1-step 也有 latency;论文需要 deployment frequency 的硬数据才能区分这是 paper-only 还是真能上机。

推荐指数:

ManipArena#

Arxiv ID 2603.28545
幻觉翻译 2603.28545

10K trajectory + long-horizon mobile manipulation + real-to-sim 对齐的真机 benchmark

ManipArena 是个真机 benchmark:20 任务 / 10812 expert trajectory / 多机器人平台 / long-horizon mobile manipulation / 含 motor 信号的 sensory diagnostics / 用高质量 3D 扫描做 real-to-sim 同步环境对齐。focus 在 reasoning-oriented generalist manipulation 而不是单点 skill。

跟 LIBERO / RoboTwin / RoboCasa 这一档 sim benchmark 比,ManipArena 的关键卖点是真机 + real-to-sim 对齐——“sim 通过但真机翻车”这个 VLA 落地老问题,需要这种同步环境才能 disentangle。10K trajectory 在真机 benchmark 里算大档位(比 BRIDGE-V2 量级低、比纯单点 demo 高),long-horizon mobile manipulation + motor signal diagnostics 是 LIBERO / RoboTwin 不覆盖的两个维度。建议作为下一波 VLA 论文的标配真机 eval——比再刷 LIBERO 数有意义。Limitation 在 10K 这个规模其实仍然不够 cover diverse perturbation 空间,real-to-sim 同步在 contact-rich 任务上的对齐精度论文需要专门验证。

推荐指数:

FocusVLA#

Arxiv ID 2603.28740
幻觉翻译 2603.28740

主张 VLA 瓶颈在视觉信息利用率而非表征质量的 attention 改造

FocusVLA 押的是一个相对锐利的 insight:VLA 的瓶颈不在视觉表征质量、而在视觉信息利用率。论点是 VLA-Adapter 这一档的 mixed attention 架构里 action latent 在 vision token 和 learnable action query 上共同 softmax,结果 action query 因为更”好学”把 attention 拉过去,视觉细节被 shortcut 掉。解法两件——Modality Cascaded Attention 把 self-attention / action-query attention / vision attention 拆成顺序独立的三步再 MLP 融合,强制 vision pass 单独 forward 不被 query 抢;Focus Attention 在 patch 级别 TopK 留 256/512 vision token、channel 级别加 element-wise gating 把噪声通道 suppress。

跟 MMaDA-VLA 这种 unified discrete diffusion、Pi-0.5 / VLA-Adapter 这种 cross-attn flow matching 路线对照,FocusVLA 不动 token space 也不动 action head,押的位置是”主流 VLA 的 cross-modal attention 形态本身就有 architectural bias”。这个 framing 比”加一路 modality / 加一个 reasoner”的拼装式工作干净——insight 单一、机制可独立 ablation。问题在 LIBERO 98.7 这一档数字在这卷里已经没区分度(MMaDA-VLA 也是 98),论文 claim 能否立其实押在 Figure 4 那个 “vision encoder 不变只换 utilization 就涨点” 的 controlled 对比上。Limitation 论文自己说得清楚:方法只动了 action latent 侧的视觉利用、VLM 内部的 visual utilization 没碰;scale 没验;真机仅 50 episode / 7-DoF 单臂——意味着”visual utilization 是瓶颈”这个强 claim 在更大模型 / 更复杂任务上能否 hold 还没数据。

推荐指数:

DIAL#

Arxiv ID 2603.29844
幻觉翻译 2603.29844

把 VLM 预测的未来视觉 feature 当作显式 intent bottleneck,再用 flow matching 做 latent inverse dynamics

方法本质是把 VLA 里 “VLM 直接喂 feature 给 action head” 这条捷径堵掉,强行插一个 latent world model 作为瓶颈:System-2(VLM + learnable query)输出的不是动作条件,而是 H 步之后 ViT encoder 给出的未来视觉 feature 的预测,监督就是对未来帧 ViT feature 的 MSE;System-1 拿到当前 feature 和这个预测出来的”未来 feature”之后,用 flow matching 在 latent 空间里反解 action chunk,等价于一个 latent inverse dynamics。训练分两段,先 decoupled warmup(System-2 单独学 world modeling,System-1 用 ground-truth 未来 feature 学逆动力学),再端到端联调让 action 梯度回流去把 intent 拗成 action-aware。真正的技术决断只有一条:intent 的载体是 ViT 自己的 feature 空间而不是像素未来帧,也不是离散 token,绕开了 pixel-level world model 的算力和模糊性问题。

把它放到坐标系里看,这就是 GR00T-Dreams / Cosmos-Policy 那条”先 dream 再 act”路线的 feature-space 极简版,也是 ThinkAct、CoT-VLA 那种”显式中间表征驱动 action”思路的另一种实现方式,比起 π0.5 / GR00T-N1.5 那种把高层 reasoning 隐式塞进 VLM hidden state 的做法多了一层可监督的中间锚点。问题在于这个锚点的强度完全取决于 ViT feature 对未来的可预测性——一旦遇到接触富、视角剧烈变化或非刚体场景,未来 feature 本身就是高熵噪声,MSE 在 ViT 空间上的对齐既不充分也不必要,瓶颈很容易退化成与 action head 平行的辅助 loss。更深的隐患是 latent inverse dynamics 假设当前 feature 到预测 feature 的差值能被 action 唯一解释,但 VLM feature 本身糅了语义和几何,flow matching 实际上是在拟合一个被语义污染过的差量,长 horizon 上误差会沿着 intent 链累积而不是被纠正——这也是为什么这类方法目前只敢在短 chunk + 高频 replan 的设定下做。

推荐指数:

VLLR#

Arxiv ID 2604.00055
幻觉翻译 2604.00055

用 VLM 估进度 + 策略自信度作内在奖励,给长时序机器人任务做 RL 微调的稠密奖励框架

这篇的核心问题是 long-horizon 机器人 RL 微调里 reward 太稀疏,作者的解法分两层:外在奖励让 LLM 基于 scene graph 把任务拆成可验证子目标、再用 VLM 在 warm-up 阶段估子目标进度去初始化 value function;之后切到内在奖励,用策略动作分布的 self-certainty(熵的反向)作为持续信号,配合 sparse 终态奖励一起训。真正的技术 commitment 在于不把 VLM 留在整个训练 loop 里——他们承认 per-step 调 VLM 不现实,所以只用它做 value init,后面靠策略自身的确定性收敛。配套加了个滑窗 temporal consistency filter 来压 VLM 给出的虚高 progress spike,避免错误高估把后续梯度噎死。

把 self-certainty 当 intrinsic reward 的理论依据非常薄——作者把它包装成 “latent world model internally consistent” 的代理,但本质上和 entropy bonus 反号、和 RLHF 里 confidence-as-reward 类做法在数学上几乎重合,policy 完全可以靠 mode collapse 把 certainty 刷满,这一点论文没有给出对抗实验。和社区的位置也比较微妙:相比 π0.5、GR00T-N1.5 那条砸数据预训通用 VLA 的路线,这篇本质是 post-training reward shaping,更接近把 ThinkAct / CoT-VLA 里的 latent reasoning 信号换成显式 VLM progress;和直接 distill VLM judge 的工作(比如 GR00T-Dreams 走 world model imagination、或 LAPA 走 latent action)相比,VLLR 的 VLM 只用一次就丢弃,省算力但也意味着分布偏移后 value 没人纠正。最致命的是评测仍然停在 LIBERO 类短序列 benchmark 上去声称 long-horizon,真长链 mobile manipulation(UMI / AMO / ExBody 级别)下 self-certainty 信号是否还能撑住非常存疑。

推荐指数:

DreamControl-v2#

Arxiv ID 2604.00202
幻觉翻译 2604.00202

把扩散先验从人类运动空间挪到机器人动作空间,再喂给 RL 做物理 imitation 的 humanoid 技能流水线

这篇真正想说的事只有一句:以前 DreamControl 用 OmniControl 在 SMPL 人类空间里生成轨迹,再 retarget 到 G1,结果空间约束(抓哪个点、踩哪个高度)全要在人类空间里反复调 prompt,retarget 完还得人工 IK 修一遍;v2 干脆把 AMASS / GRAB / Nymeria / OmniRetarget 全 retarget 到 G1 上,然后直接在 G1 关节空间里训一个 263 维的 MDM + OmniControl 风格扩散模型,空间 guidance 的 MSE 直接打在机器人关节位置上。下游不变,仍然是扩散采一堆 reference trajectory,再用 motion tracking reward 跑 RL,然后 sim-to-real。所以”novelty”其实是把约束施加的坐标系换对,外加把数据池子从纯 AMASS 扩到带物体交互的 GRAB / Nymeria。

放在 humanoid 这条线上看,这就是一个比 ExBody / AMO 更工程化、比 OmniRetarget 更”生成式”的中间产物:ExBody / AMO 直接拿 retarget 后的人类 motion 当 tracking target,OmniRetarget 把 retarget 这步做精,DreamControl-v2 等于在 OmniRetarget 后面再叠一个条件扩散模型当 trajectory 工厂,好处是文本 + 空间点可控、可批量造数据,本质上仍是 “MoCap → Tracking RL” 这套老范式,没有触碰 contact-rich manipulation 的根本难点(force、接触切换、闭环视觉)。八个任务里真正算 manipulation 的只有 Drawer Open / Pour / Pick,且都是开环跟踪一条预生成轨迹,跟 Pi-0.5、GR00T-N1.5、RDT2 这类闭环 VLA 不是一个层面的事,更不要谈和 ThinkAct / CoT-VLA 那种 reasoning 路线比。最致命的限制是扩散先验只学到了 kinematic 合理性,物理交互、物体几何、视觉反馈全压给下游 RL,意味着一旦任务需要在线根据物体状态改轨迹(GR00T-Dreams、Cosmos-Policy 试图解决的那类),这套 pipeline 就退化回 “每个任务训一个 specialist policy”,谈不上 scalable autonomous skill。

推荐指数:

EgoNav#

Arxiv ID 2604.00416
幻觉翻译 2604.00416

只用 5 小时人类行走数据 + 轨迹级 diffusion,零样本上 Unitree G1 的 humanoid navigation

EgoNav 的核心赌注是把 humanoid navigation 拆成”高层轨迹 prior”和”底层 locomotion”两件完全独立的事,并且只用 5 小时人类行走数据训上层、下层直接复用现成 humanoid controller,全程不碰一帧机器人数据。具体做法是 non-autoregressive UNet diffusion 一次性出 100 步 / 5 秒 / 6-DoF 的 ego-frame 轨迹分布,conditioning 三路——过去轨迹、滚动维护的 180×360×5 全景 visual memory(RGB+depth+semantic 经 spatial VAE 压成 latent)、冻结 DINOv3 patch 特征(专门补 depth 看不到的玻璃墙 / 动态障碍)。真正的技术新意在 sampling 这一层:linear noise schedule + 5 步 skip-DDIM 拉到分布近似 + 5 步连续 DDPM 修细节,10 步出 64 条候选轨迹,再用 KD-tree 碰撞过滤 + K-Means 聚类 + medoid 选 intention,整体卡在实时区间。

放在 ExBody / AMO / OmniH2O 这条 humanoid 路线里看定位是清楚的——那几条都是 whole-body tracking / locomotion 的 RL controller,EgoNav 显式说自己只做 navigation prior、locomotion 留给下游,所以可以挂在任何 humanoid stack 上做”哪走”这层。和 NoMaD / ViNT 那条 mobile robot navigation 路线比,关键差异是不要任何机器人数据、轨迹升到长时序 6-DoF、并且 embodiment-agnostic,这一点和 Ψ0\Psi_0 用 EgoDex 800h 人类视频做上层预训的思路同源——都在押”人类数据 + 显式分层”可以绕开真机大数据。Limitation 也很明显:5 小时数据规模在 navigation 之外的 task semantics(“去找冰箱”这类 instruction following)撑不起来,论文只解 collision-free wandering / point-goal 这一档;hybrid sampling 的 schedule 是手工调出来的不是 learned;以及 zero-shot deployment 的成功率很依赖底层 humanoid controller 的 robustness,G1 之外没有交叉 embodiment 验证,“embodiment-agnostic”这个 claim 目前是 N=1。

推荐指数:

MCVS#

Arxiv ID 2604.00557
幻觉翻译 2604.00557

用多相机同步采集把一条人类示教扩成 V 条伪示教,并把动作搬到相机系里制造视角间的"动作多样性"

文章真正非平凡的一步不是”加几个相机”,而是动作空间的选择:base-space 复制等于纯视觉扰动,end-effector-space 因为以末端为原点导致跨视角动作几乎不变,只有 camera-space 用外参 R_ext 把动作旋到各相机坐标系,使同一条示教在不同视角下产生实质不同的动作标签,从而在 diffusion policy 的损失上制造梯度差异而非只是 observation aug。测试期再把多视角预测当作同一条件分布的独立样本,在 denoising 步里按外参反变换回来做平均,把训练时的视角多样性以”集成投票”的形式部分恢复出来。这是一个相当干净的几何观察,价值在于点出了”视角增广”为什么常常没用——因为大家把动作放在了视角无关的坐标系里。

但放到 Pi-0/Pi-0.5、GR00T-N1.5、RDT2、OpenVLA 这条 VLA 主线上看,这篇基本是上一时代 single-task diffusion policy 的边角料:它不解决语言条件、不解决跨本体、也不碰长程任务,本质上是 UMI 那种”用采集端的便宜手段换数据”的延伸,而 UMI 走的是手持夹爪换 embodiment-free 数据、它走的是相机外参换动作多样性,后者的天花板明显更低,因为伪示教里的”动作”是数学构造而非真实物理交互,policy 没有从中学到任何新的接触动力学。与 CoT-VLA/ThinkAct 的推理增广、LAPA 的 latent action、Cosmos-Policy/GR00T-Dreams 的世界模型增广相比,它属于”零成本但也零信息量增益”的那一类 trick——对 LIBERO 这种视觉过拟合严重的小 benchmark 有效,一旦上 GR00T-N1.5/AMO/ExBody 那种 whole-body、跨场景的数据规模,相机外参引入的动作扰动相对真实示教方差就微不足道了,camera-space 的几何耦合还会反过来限制 backbone 学到视角不变的语义。建议把它当 data-collection 工程 trick 收藏,不要当 method 看。

推荐指数:

SMASH#

Arxiv ID 2604.01158
幻觉翻译 2604.01158

Motion-VAE 扩增稀疏击球 MoCap + 纯 onboard 双目,把人形乒乓做成全身连续对打

方法本质不在那套 PPO + 非对称 Critic + 全身 tracking 的标配壳子,而在用 Motion-VAE 把 400 条 1 秒级的击球 MoCap 在 latent space 里采样扩增出覆盖整个工作空间的 reference 库,再用一个 motion tracker 在仿真里做”动力学可行性过滤”,留下真能被全身策略复现的轨迹做参考。训练时按目标击球位置/速度做 task-aligned motion matching 检索 reference,配合 contact 时刻 0.02s 窗口的 gated 奖励和 adaptive region sampling 强行把策略压到稀疏工作区。感知端则是 head-mounted ZED X 跑 YOLO + HSV 亚像素 + 立体三角化喂一个带空气阻力和台面反弹的 AEKF,整条管线挂在机身 Jetson 上。核心 insight 是:人形乒乓真正卡脖子的不是 control 也不是 VLM,而是击球 MoCap 在工作空间里的稀疏性,VAE 在这里是当”运动 prior 扩增器”用,而不是当 policy。

放到社区坐标系里看,这篇和 AMO / ExBody / ExBody2 是一脉的 whole-body tracking 路线,但比它们多走一步——AMO 之类基本就是单一参考分布上 distill,HITTER 这种乒乓工作还要切上下半身解耦;SMASH 直接把”参考运动稀疏”这件事正面解决掉,全身 coupled 还能蹲救球和扣杀。和 Pi-0 / Pi-0.5 / GR00T-N1.5 / OpenVLA / RT-2 / RDT2 这条 VLA / language-conditioned manipulation 主线完全不在一个 problem space,更没有 ThinkAct / CoT-VLA / LAPA / UMI / Cosmos-Policy / GR00T-Dreams 那种 reasoning 或 world model 的诉求。Limitation 也很明确:Motion-VAE 扩增出来的本质上还是 mocap 分布的内插,对手球路一旦超出训练分布(强旋转、超远 lob)这套 phase-aligned reference 检索就退化;纯 onboard 双目在快球场景下的延迟和遮挡作者自己也没正面回应。这条路要继续往上推,下一步真正要解决的是”没有人类 mocap 也能学会击球姿态”——而这又会把问题塞回 RL from scratch 或者 sim-to-real motion generation,VAE prior 这层 trick 红利不会一直吃。

推荐指数:

AnchorVLA#

Arxiv ID 2604.01567
幻觉翻译 2604.01567

K-means 抽 motion anchor + 截断 diffusion + 残差校正的轻量 diffusion VLA

推荐指数:

ARM#

Arxiv ID 2604.03037
幻觉翻译 2604.03037

用人类三态标签(进/退/停)学一个相对优势奖励模型,再做 Advantage-Weighted BC 过滤次优演示

这篇本质上是把 offline RL 里 AWR 那一套搬到机器人 BC 上,但关键的设计是回避了”给每帧标连续 progress”的不可行性:人只判断当前帧相对前一帧是”前进 / 后退 / 停滞”三态,模型用 cross-entropy 学相邻帧的相对优势(Interval Head),再用一个 Completion Head 当锚点,把分段预测的相对增量积分回全局 progress 曲线。下游就是标准的 Advantage-Weighted BC:把重构出来的 ΔG 做 batch 归一化、clamp 到 [0,1] 当样本权重,等价于在 BC 里把回退/停滞的动作权重压到零、保留前进动作。和那些把 reward model 直接当 dense 标量回归的工作相比,“分类 + 锚点积分”这条路确实能容忍 demo 中的回撤和非单调行为,相对 ground truth 也更便宜。

但放到当前 VLA 语境下看,定位相当尴尬。它不是 policy,是给 BC 加一层数据过滤——和 Pi-0 / Pi-0.5 / GR00T-N1.5 / RDT2 这种 backbone + VLM + flow matching 的主流栈完全不在一个层级,更像是 OpenVLA / RT-2 时代 BC 的补丁;本质问题”BC 在次优演示上学坏”在 Pi-0.5 这种规模上已经被数据筛选 + co-training 稀释掉了,单任务 towel-folding 的收益很难外推到通用 manipulation。和 ThinkAct / CoT-VLA / LAPA 那种试图让模型自己产生 progress / latent action 信号的方向比,这里”人来标三态”反而是回退到 human-in-the-loop,并没有解决 reward model 自身的 scaling 问题。再加上整套 pipeline 默认 demo 是单 embodiment、单视角的窄分布,跟 UMI / ExBody / AMO 这种以数据多样性为前提的工作没有交集,Cosmos-Policy / GR00T-Dreams 那种用生成数据 scale up 的路线更是直接绕过了”标演示质量”这个问题。Limitation 很清楚:tri-state 标注本身是 dense 的(每帧都要标一次相邻关系),所谓”低成本”只在演示量小时成立;一旦 demo 量到 Pi-0 这个量级,这条路本身就垮了。

推荐指数:

MV-VDP#

Arxiv ID 2604.03181
幻觉翻译 2604.03181

以多视图视频扩散为骨架,把末端执行器的高斯热图当作"另一路视频"和 RGB 联合去噪,再从热图峰值反投影出 3D 动作

这篇的真正赌注不是”video diffusion 当 policy”——那个 UniPi、GR00T-Dreams、Cosmos-Policy 已经反复刷过了——而是把动作监督本身重新写成视频。具体做法是把末端执行器在三个正交投影视图下的像素位置 splat 成高斯热图序列,让这条”热图视频”和 RGB 视频共用同一个 Wan2.2 VAE、同一个 DiT 主干、同一套去噪 loss,仅通过 view-attention 跨视图聚合;推理时固定当前帧的点云和位姿 latent 作条件,去噪出未来的 RGB+热图,再用相机内外参从三视图热图峰值反投影得到 3D 末端轨迹,旋转和夹爪则由一个 170M 的小 decoder 从 latent 里读出来。关键 trick 在于”热图与 RGB 同分布”——热图被 VAE 当成普通图像编码,于是动作回归被改写成了视频预训练原生就会做的去噪任务,绕开了 Pi-0/Pi-0.5/GR00T-N1.5 那种 flow matching 头、也绕开了 OpenVLA/RT-2 的离散 token 头需要重新对齐特征空间的痛点。

但这个设计其实把代价转嫁到了几何稳定性上。三视图热图反投影本质是手搓的 triangulation,对 Wan2.2 在像素空间的少量漂移极敏感,而 RGB+热图联合去噪虽然减小了表征 gap,却也意味着 RGB 生成质量差时热图会一起塌,5B 主干跑一次完整去噪的推理成本对比 Pi-0.5 / RDT2 这种直接出动作 chunk 的方案完全不在一个量级,闭环频率几乎注定要靠 action chunking 续命。其次,把动作压成”末端位置 + 离散 72-bin 旋转 + 夹爪”等于默认是桌面平行夹爪 manipulation——这一招在 AMO/ExBody 那种 whole-body humanoid 或 UMI 那种 in-the-wild 抓取上几乎没法迁移,自由度一上来正交投影热图就退化成混叠 blob。和 ThinkAct/CoT-VLA 显式推理、LAPA 离散 latent action 这条线相比,MV-VDP 的”视频即动作”哲学更纯粹也更脆,本质是赌视频先验比语义先验对 manipulation 更值钱;这个赌赢没赢,光靠 LIBERO 这种短视域 benchmark 看不出来,真要服人得上长程、可变形物体和跨 embodiment 的场景。

推荐指数:

AdaptiveActionChunking#

Arxiv ID 2604.04161
幻觉翻译 2604.04161

用 action chunk 内的熵增曲线做拐点检测,在 inference time 自适应切换 chunk 长度

这篇的核心其实就一件事:在 inference 时让 chunk 长度跟着策略自己的不确定度走,而不是按 Pi-0 / Pi-0.5 / GR00T-N1.5 那种把 H=16 或 H=50 当作超参敲死。具体做法是对一个 flow matching head(GR00T-N1.5 主、π0.5 副)并行采 N 条 chunk,对连续维按 timestep 估高斯协方差算微分熵、对夹爪按 Shannon 熵,然后沿 chunk 横轴看平均熵 Eˉh\bar E_h 的增长,找一阶差分最大的那个 hh 当作”信息开始劣化”的拐点,下面再 clip 一个最小步长。换句话说,它把 chunk size 从一个数据集级 hyperparameter 变成了一个 per-step、policy-self-aware 的决策——纯推理时改动,不动训练,不动结构,因此可以套在任何已有的 flow / diffusion VLA 上。

批判性来说,这是 chunking 这条线上少见的不靠堆模块就站得住的工作,方向也对:CoT-VLA / ThinkAct 在 chunk 之上加 reasoning、AMO / ExBody 在 chunk 之下做底层 tracking,而 chunk 本身的长度其实一直是被 ad-hoc 选的,AAC 第一次正经把这个量当成可观测量来调,配合 Pi-0.5 / GR00T-N1.5 这种已经把 chunk 当默认接口的 backbone 是顺手的事。问题在于熵作为 proxy 太乐观——flow matching 的预测协方差并不真的反映环境的可决策性,遇到 multi-modal demonstration(典型 UMI 数据、RDT2 那种多人多场景)协方差会被 mode 平均撑大,AAC 会主动缩短 chunk,反而退化成 OpenVLA / RT-2 那种近单步重规划的高频抖动模式;反过来在 LIBERO 这种 demo 高度一致的场景里熵恒低,又会贴着上限走、和固定大 chunk 没区别。再加上需要 N 条并行采样来估协方差,相比 Cosmos-Policy / GR00T-Dreams 这类已经很重的 backbone 是实打实的额外开销,论文里那个”纯 inference、零训练成本”的卖点在真机部署上要打折扣。

推荐指数:

Veo-Act#

Arxiv ID 2604.04502
幻觉翻译 2604.04502

把 Veo-3 当 high-level motion planner,IDM 解码 + gate 切到 VLA 做接触段

这篇本质是把 video-as-policy 这条线(UniPi、GR00T-Dreams、Cosmos-Policy)实际跑出来时遇到的”video 看着对、动作精度根本不够”那个老问题,用一个 gating + 分层的工程方案绕过去:Veo-3 负责生成未来帧作为粗糙的运动规划,然后训一个多头 IDM——一个 head 回归 pose、另一个 head 输出一个 0-1 的 interaction gate——把帧对解码成动作 chunk;当 gate 持续高于阈值就把控制权交给一个专门的 VLA 去处理接触/抓取段,gate 掉下来再 prune 已执行的动作回到 Veo 规划的轨迹。IDM 真正的小巧思是它训在 random-play 数据上(随机运动 + 随机 grasp/release),不需要专家示教,本质是把 frontier video model 当成”会做 pick-place 的弱 planner”,再用一个便宜的 IDM 把像素差翻译成 EE 命令。

但说白了这就是承认了 Cosmos-Policy / GR00T-Dreams 那套 “video model 直接当 world model 解码动作” 的路线在接触阶段崩盘,于是退回到 hierarchical:上层 video 只敢做语义级的 reach-and-place 这种”运镜”,真正要灵巧的部分还是甩给一个常规 Pi-0 类 VLA,gate 切换实际上是承认了上层模型不可信。和 ThinkAct / CoT-VLA 那种”显式 reasoning 再 action”的二层结构其实同构,只是 reasoning 的介质换成了 Veo-3 生成的像素流而不是 token;和 LAPA 用 latent action 学 video prior 的思路相比,这里 IDM 直接监督在真实动作上、放弃了 latent。最大的 limitation 是 Veo-3 的推理成本和延迟使得这种 planner-executor 在真机上几乎只能 open-loop replan,gate 阈值 τ 这种硬切换在动态/连续接触场景一旦误触发就 deadlock;它真正回答的问题不是 “frontier video model 能不能做 manipulation”,而是”在 Veo-3 这种闭源黑箱下你能把它压榨到哪一层”——答案是只能压到 motion sketch,dexterity 仍然得靠老老实实收数据训 VLA。

推荐指数:

StarVLA#

Arxiv ID 2604.05014
幻觉翻译 2604.05014

把 VLA 拆成 backbone + action head 的乐高式开源代码库,统一了 FAST / OFT / π₀ / GR00T 四种解码范式

本质上是一个工程性的代码库工作,把 VLA 切成”VL backbone”和”action head”两层抽象,二者通过统一的 hidden-state 接口对接,可独立替换。Backbone 侧支持 Qwen3-VL 这类 VLM 和 Cosmos 这类 video world model,head 侧实现了四种代表性范式:FAST 的离散 token 自回归、OFT 的并行 MLP 回归 + L1、π₀ 风格的 layer-wise cross-attention flow matching action expert,以及 GR00T 的 System1/System2 双系统 DiT。所有模块强制走同一组 forward / predict_action 签名,再加上 LeRobot mixture 数据接口和 WebSocket server-client 的评测解耦——核心动作就是把社区里散落的 Pi-0、OpenVLA、GR00T-N1.5、FAST 用一套 base class 重写一遍,让 backbone 和 head 可以正交组合。

说白了这是一份 infra paper 而非 research paper,没有新的算法主张,novelty 完全押在”双向模块化”上,但这件事 LeRobot、OpenVLA codebase、HuggingFace lerobot-policies 已经在做不同程度的尝试,StarVLA 的差异只是把 action head 那一侧也抽象出来,而代价是抽象层很容易在真正非标准的方法上漏水——例如 ThinkAct、CoT-VLA 的中间链式推理、LAPA 的 latent action、UMI/EgoDex 类的人手数据流、AMO/ExBody 的 whole-body 控制,都不是”backbone 出 hidden state,head 出 action chunk”能干净套进去的,论文里也确实只复刻了四个本来就长得像的成员。更现实的问题是:当 Pi-0.5、RDT2、GR00T-Dreams、Cosmos-Policy、Ψ₀ 这些工作的关键 know-how 在数据配比、预训练课程和 world model co-train 而非 head 结构时,统一 head 接口的边际价值有限;它对社区的真正用处是替代 OpenVLA codebase 作为新一代基线 reproduction 平台,而不是推动方法学本身。

推荐指数:

JailWAM#

Arxiv ID 2604.05498
幻觉翻译 2604.05498

把数字越狱攻击搬到物理世界,给 WAM 做了一套带视觉轨迹中介的红队评测框架

这篇的本质是把 LLM 越狱那一套搬到 World Action Model 上做安全评测,真正有点意思的设计只有一个:Visual-Trajectory Mapping,把不同 WAM(异构动作空间、不同 chunk 长度、关节/末端/像素空间)输出的轨迹统一投影成 top-down 和 front-view 的 2D 正交轨迹图,再交给一个 fine-tune 过的 Qwen3-VL-2B 做风险判别。这一步是整篇文章唯一不能被替代的地方——它把”动作是否危险”这个原本要靠仿真碰撞检测才能回答的问题,压缩成了一个 VLM 看图分类任务,于是 Stage I 开环筛选 + Stage II 闭环验证的 dual-path 才有可能加速。其余的三级安全分级(合规/失败/灾难)、对抗 prompt 用 Gemini 生成、人工复核,这些都是标准红队流程。

批评的话,这篇问题非常明显:它把 Pi-0/Pi-0.5/GR00T-N1.5/RDT2/OpenVLA 这种通用 VLA 笼统叫成 WAM 来攻击,但真正测的目标模型 LingBot-VA、Motus 都不是这条主线上的代表方法,攻击 84.2% 成功率更多说明被测模型本身没做过任何 safety alignment,而不是 WAM 范式天然不安全——同样的 prompt 拿去打 Pi-0.5 或 GR00T-N1.5 这种自带 high-level reasoning 分层的系统结论很可能完全不同。其次 Visual-Trajectory Mapping 的正交投影丢掉了力/接触/速度量级,碰瓷、夹碎、夹人的差异在 2D 轨迹图上几乎无法区分,Risk Discriminator 在 Level 2 的召回率基本就是这个瓶颈的体现。最后所谓 Stage I 可以当 plug-and-play 防御,本质上是把一个 VLM filter 串在 policy 前面,这跟 ThinkAct/CoT-VLA 那种把推理内化进 policy 的路线相比是个倒退方向,纯外挂、不可微、延迟叠加,部署价值存疑。

推荐指数:

DAERT#

Arxiv ID 2604.05595
幻觉翻译 2604.05595

用多样性感知 RL 红队攻击 VLA,暴露其在语言指令扰动下的脆弱性

推荐指数:

A1#

Arxiv ID 2604.05672
幻觉翻译 2604.05672

VLM 中间层 early-exit + flow matching 沿层 warm-start 的"自适应截断"VLA 推理方案

A1 的核心其实只有一件事:把 VLA 的推理从”一路前向到底再跑完整 flow matching”改成”在 VLM 的中间层就可以出动作、并且每层的去噪都用上一层的结果来 warm-start”。具体来说,作者在 Molmo backbone 的若干中间层都挂上 action head,推理时逐层比较相邻层产生的动作差异,差异低于一个离线在训练集上标定的阈值就直接截断;同时把 flow matching 的去噪步数压到每层只 2 步,下一层的初值直接取自上层最后一个去噪状态,而不是重新采样高斯噪声。这两点合起来等于把”网络深度”和”去噪步数”这两个维度合并成了一个可以共享中间状态的级联过程,是少见的不靠蒸馏、不靠 cache、不靠小模型就能压成本的做法,比单纯把 Pi-0/Pi-0.5 的 flow expert 步数砍低或者像 RDT2 那样上 distillation 要更结构化。

但抛开这个加速 trick,A1 的”动作建模”部分其实没有任何新东西:FM head 就是 Pi-0 那套条件流匹配,MLP head 就是 OpenVLA/RT-2 风格的回归头,pretrain 数据也是 DROID+AgiBot+RoboCOIN 这种已经被 GR00T-N1.5、Ψ0\Psi_0 反复消费过的开源组合,没有像 GR00T-Dreams 那样的世界模型增广,也没有 ThinkAct/CoT-VLA 的推理链路,更没有 AMO/ExBody 在 whole-body 控制上的运动学先验,所以它本质是”VLA 推理加速器”而不是”新的 VLA”。真正的隐患在于 early-exit 的阈值是在训练集上离线标定的,分布外任务上层间动作一致性曲线会不会还服从训练时的指数分布是个问号——一致性低不代表错、一致性高也不代表对,遇到需要长 horizon 规划或者需要在中途修正的任务(LIBERO long、真实 UMI 数据这种),过早出口很可能锁死在一个”看起来稳定但其实错了”的动作上;而 warm-start 去噪虽然省步数,却也意味着越深层越难逃出浅层的偏置,和 LAPA、Cosmos-Policy 这种强调潜在动作多样性的路线在哲学上是反着走的。

推荐指数:

BiDexGrasp#

Arxiv ID 2604.06589
幻觉翻译 2604.06589

双臂灵巧抓取的数据合成 + 几何-尺寸自适应扩散生成框架

这篇文章的核心其实不在 policy 而在 grasp synthesis 本身:它把双手 force-closure 这种本来要联合优化的高维问题,拆成两只手各自独立的能量项,再叠一个 GWS-based 的区域筛选做初始化,把 BimanGrasp 那种 quadratic 采样的搜索空间砍掉一大块,从而合出一个覆盖 6351 个物体、30–80cm 尺寸跨度的双手抓取数据集。生成端真正值得拎出来的是 geometry-size-adaptive anchor:不直接回归绝对腕部位姿,而是在物体 bounding sphere 上动态放 anchor、预测相对位姿,配合一个 K 个可学习 view embedding 的 coordination module 显式建模两只手 view 的兼容性概率,最后用 DDPM 出关节角。这个 “view-pair 概率 + 相对 anchor” 的组合是这套 pipeline 里唯一比较干净的设计选择,其余都是把已有 grasp 文献的组件按双手场景重新接线。

但放在 EAI 当前的语境下,这篇基本是个 standalone 的 grasp 生成器,和 Pi-0/Pi-0.5、GR00T-N1.5、RDT2、OpenVLA 这种 VLA 范式没有任何交集——它不消费语言、不在 EgoDex/UMI 这种 demonstration 数据流里、也不像 AMO/ExBody 那样要解决 whole-body 的 trade-off,更谈不上 ThinkAct/CoT-VLA/Ψ0\Psi_0 的 reasoning 链路或 GR00T-Dreams/Cosmos-Policy 的世界模型先验。本质上它把双手协调退化成 “view-pair 分类 + 单手独立优化”,decoupled force-closure 在物理上其实是个 approximation——真实双手协同抓大件时两手之间的 internal force 和 squeeze 是耦合的,独立能量项会系统性低估这部分,导致合出来的数据偏向 “两个独立单手抓” 而非真正的 bimanual manipulation。LIBERO 风格的 long-horizon 操作、或 LAPA 那种从人类视频学协调的路线,在这里都没被触及,所以它更像一个上游 data engine,而不是一个能直接喂给 manipulation policy 的解决方案。

推荐指数:

GenieSimPanoRecon#

Arxiv ID 2604.07105
幻觉翻译 2604.07105

全景图前馈式 Gaussian Splatting 拼成仿真背景,给 Genie Sim 当贴皮的工具论文

方法本身就是把单张全景图拆成 cubemap 六面,丢给 SHARP 这种前馈 Gaussian 重建网络并行跑,最后裁掉每个面 frustum 外的 splat 再 merge 成一整个场景。真正”新”的那一点其实只在 depth 注入:作者发现 DA360 给出的全景深度全局一致但糊,DepthPro 局部锐利但尺度漂移,于是用一个四层 Laplacian 金字塔把前者的低频和后者的高频拼起来,再把这张融合深度直接灌进 SHARP 中间层替换它自己估的深度,号称 training-free 地拿到几何一致的 Gaussian。其余部分(cubemap 分解、anti-aliasing 投影、frustum 裁剪)都是图形学的常规操作,谈不上方法学贡献,论文的定位也很坦诚——就是给 Genie Sim 这个 LLM 驱动的 manipulation 平台供应可交互前景 mesh + 视觉真实背景 Gaussian 的拼装组件。

批评地讲,这是一篇典型的 infrastructure/工具论文,野心和 Pi-0.5、GR00T-N1.5、Cosmos-Policy 这种端到端 policy 工作完全不在一个层面,也不该被放在一起比较;它更像是 UMI 数据管线那一侧的同盟——给训练 VLA 提供 scalable 的视觉环境。问题是即便作为工具,论文的评估几乎只有 qualitative seam/极点检查加 runtime/显存,没有对下游 manipulation policy(哪怕是一个 LIBERO 级别的小实验)做 sim-to-real 或 policy 学习的闭环验证,所以”对 embodied AI 有用”这个核心 claim 是没被证伪也没被证实的悬空状态。另一处隐忧是 training-free 替换 SHARP 中间深度的做法——网络的后续 Gaussian 参数(scale、opacity 初始化)是在它自己估的深度分布下学出来的,强行换分布是否会让 splat 的几何统计偏离训练域,作者只在可视化上糊弄过去,没给数值化的 reconstruction error 或 novel-view PSNR,相比 GR00T-Dreams 那种把生成质量与下游策略性能挂钩的做法显得单薄。

推荐指数:

EgoVerse#

Arxiv ID 2604.07607
幻觉翻译 2604.07607

联合多机构众包构建千小时级第一人称人手演示数据集,并以统一坐标与流匹配解码做人-机共训以验证缩放规律

这篇工作的本质不是模型,而是一套”跨实验室协议 + 云端数据库 (EgoDB) + 标准化人手表征”的基础设施:用 Aria/手机/自制头戴等异构设备采集,统一输出第一人称视频、21 点手部关键点和相机位姿,把未来手位投影回当前设备帧来构造与设备运动解耦的动作标签。模型侧是模态分头 + 共享 latent + 流匹配动作解码的常规跨实体架构,真正落地的设计是”分位数归一化”和按实体独立归一化的 proprio/action,让人和机器人能塞进同一个 BC 目标里。这套基础设施支撑的核心 claim 是:人类数据带来正向缩放的前提是必须存在”任务定义对齐”的人-机配对子集,而不是越多越好;同时在受控子集 EgoVerse-A 上把演示者多样性和场景多样性解耦,发现场景多样性在小数据预算下对新环境泛化的贡献占主导。

批判地看,这本质上是 EgoDex 思路 + 一份社区版 OXE 的延伸,方法贡献被基础设施叙事稀释:流匹配解码、quantile normalization、shallow modality stems 这些 trick 在 Ψ0\Psi_0、Pi-0/Pi-0.5、GR00T-N1.5、RDT2 中早已是默认配置,本文并未给出针对人手→机器人差距的真正新机制,比 UMI 的手持夹爪同形态采集、LAPA 的潜动作预训练、Cosmos-Policy 的生成式数据增广都缺少一个 sharp 的技术 claim。“对齐才有缩放”这一结论虽实用,但与 OpenVLA/RT-2/GR00T-Dreams 关于跨域共训的既有经验高度同向,没能像 ThinkAct/CoT-VLA 那样揭示新机制;EgoVerse-I 的多样性主要来自工业伙伴黑盒贡献,复现性与 AMO/ExBody 这类提供完整管线的工作相比偏弱,且评测仍停留在 LIBERO 风格的桌面单臂场景,未触及全身或 loco-manipulation,限制了”千小时人手数据”的实际杠杆上限。

推荐指数:

HEX#

Arxiv ID 2604.07993
幻觉翻译 2604.07993

以身体部位槽位化的本体感受 MoE 预测器 + 残差门控融合,把整人形协调当成 VLA 的一等公民

HEX 的核心动机是承认目前 Pi-0/Pi-0.5、GR00T-N1.5 这一脉 VLA 在 action head 端基本把高自由度身体看成扁平向量、各关节独立回归,对真正需要全身协调的人形 whole-body manipulation 不够友好。它的做法是把本体感受信号塞进一组 canonical body-part slot(双臂、双手、双腿、头、腰、others),用一个共享 + 路由专家的 MoE Transformer 当 Universal Proprioceptive Predictor 做未来状态预测,再让 action expert 通过并行交叉注意力分别吃视觉-语言条件和这套预测状态,最后用学习到的门控做残差融合,由 flow matching 头吐 action。真正能算”新选择”的其实只有两点:把 morphology 显式编码成槽位再让 token-wise MoE 路由去吸收异构形态,以及用 history query cache 替代每步重编码图像——前者是对 GR00T-N1.5/AMO 那种”分上下身两条策略”或 ExBody 风格 retargeting 的一个更软的替代,后者更像工程上的省算力 trick。

批判地看,这套设计的本质仍然是”在 Pi-0.5 上加一个本体感受侧塔再 gate 回去”,所谓 whole-body coordination 主要通过 future state prediction 这条辅助损失隐式获得,而不是像 AMO/ExBody 那样在控制层显式保证可行性,因此真上人形腿部时仍要靠下游低层控制器兜底,这一点和 Ψ0\Psi_0 把 locomotion 解耦的处理没本质区别。其次,所谓 cross-embodiment 仅覆盖 Tienkung、Unitree G1/H1、AgiBot、Leju 这几款形态拓扑相近的人形,slot 化在末端形态分歧(灵巧手 vs 夹爪、轮式 vs 双足)下是否仍然 routable 没被压力测试,相比 RDT2、Cosmos-Policy 直接用更大 mixture 暴力吃异构的路线,HEX 的 inductive bias 反而可能限制规模红利。再者,未来状态预测早在 CoT-VLA、ThinkAct、GR00T-Dreams、LAPA 里就被各种姿势用过——视觉 latent、潜在 action、视频 dream——HEX 选最朴素的 proprioception 预测,避免了世界模型的复杂度,但也丢掉了 UMI/EgoDex 类人类数据可迁移的接口;加上承认的 73ms 推理延迟和 grasping/long-horizon 错误堆积,这篇更像是把 humanoid prior 工整地缝进 Pi-0.5 模板,而不是给 VLA 范式提供新的轴。

推荐指数:

ViVa#

Arxiv ID 2604.08168
幻觉翻译 2604.08168

把预训练视频扩散模型改造成价值函数,用未来本体感受联合预测来估 value

ViVa 的核心动作是把 Wan2.2 这个视频扩散 Transformer 当成 value head 来用:当前多视角 RGB 与本体感受被编码成”干净”的条件 latent frame,未来本体感受与一个标量 value 则作为带噪 target frame,通过 flow matching 一起去噪还原。真正算得上新的设计是 value 的注入与监督形式——把标量 value 用 broadcast 填到一整张 latent frame 上和未来 proprioception 并列预测,再用一个”成功轨迹与失败轨迹之间恒为 1.0 margin”的 step-wise return 形式(成功 (T-t)/T、失败再加 1)作为目标。相比 Pi-0/Pi-0.5、GR00T-N1.5、OpenVLA、RT-2 这类把视频/视觉先验当 policy backbone 的路线,以及 GR00T-Dreams、Cosmos-Policy 把视频生成当作数据/world model 的玩法,ViVa 选择把”视频生成”这块算力专门换成 critic,这一个定位上的切换确实少见,也比 ThinkAct、CoT-VLA 那种用语言或 CoT 来打分要更贴近 embodiment 动力学。

但把它放回 RECAP 这种 RL 框架里看,问题也明显:所谓 “anticipated embodiment dynamics” 实际上只预测了 proprioception 一项未来通道,并没有真的预测视觉未来,本质上更像是把 future joint trajectory 蒸馏成 value,那么这套视频扩散 backbone 的真正必要性就要打问号——一个轻量 trajectory transformer 加 success classifier 大概率能拿到同等信号,作者也没在文中正面消融掉 Wan2.2 预训练权重来证伪。其次 reward 设计把成功/失败 return 差固定成常数 1,使得 value 函数退化为”软成功分类器”,长程稀疏奖励里它和 LAPA、UMI、Ψ0\Psi_0、EgoDex 这类靠 demonstration 隐式定义进度的方法相比并没有结构性优势;评测也只在 box assembly 与折裤子等少量任务上做,没有像 AMO、ExBody、RDT2、LIBERO 那样在多构型或多任务 benchmark 上验证,generalization 主张目前更像是 anecdote 而非证据。

推荐指数:

Sumo#

Arxiv ID 2604.08508
幻觉翻译 2604.08508

把预训练全身控制策略当作低维可微执行器,在其之上跑 sample-based MPC 做测试期 loco-manipulation 规划

方法本质上就一句话:别再为每个 loco-manipulation 任务单独 RL 了,把已经训好的 whole-body policy(Spot 用 ReLIC、humanoid 用 MJLab 的 velocity tracker)当成一个”低维动作接口”,在 MuJoCo 里把这个 policy 一起塞进 rollout 循环,然后在外面套 MPPI/CEM 之类的 sample-based MPC,以 20Hz 重新规划 torso 速度和 arm 关节目标,底层 policy 50Hz 跑关节力矩。真正有意思、也是这篇唯一值得拿出来讲的设计,是 policy-in-the-loop parallel rollout:采样不在 50 维关节空间,而是在 policy 暴露出的几维指令空间,这让 sample-based planner 在物理仿真里实时滚动 32 条轨迹变得可行;配合任务侧只写一个极简 cost(物体位姿、gripper-物体距离、速度正则),就可以在部署时通过换 cost 直接切换 Move/Upright/开门/推桌子,而不动 policy 权重。立顶轮胎、拖比机器人还大的路障这类 demo 确实把”超出抬举力极限的整体协调”展示出来了。

批判地讲,这其实是一篇 system/integration 而非 method 论文:核心是”用现成的 RL policy + 现成的 sampling MPC + MuJoCo 并行 rollout”拼起来,policy 本身没动、planner 也是教科书算法,真正的贡献只是确认”把 policy 当 action abstraction 跑 MPC”在真实 Spot 上是可行的。和当前 loco-manipulation 主流路线对比就更尴尬:相对 AMO、ExBody 这类直接学 whole-body 残差/teleop 跟随的工作,Sumo 牺牲了反应速度(20Hz 重规划 + CPU MuJoCo)换来任务泛化;相对 Pi-0/Pi-0.5、GR00T-N1.5、RDT2 这种 VLA 路线,它完全不碰语义和视觉,物体姿态只能靠外部状态估计喂进 cost,意味着所有”泛化”都局限在已知几何 + 已知 cost 模板,根本无法像 OpenVLA/RT-2 那样”看到新场景就动”。更深的限制在于 cost 必须人手写、planner 在接触富集任务上 sample efficiency 极差,GPU 并行也没用上(被 C++ MuJoCo 卡死在 CPU 32 路),一旦任务需要长程接触序列或 gripper 之外的精细操作,这套 sample-based 外环大概率会塌;它和 ThinkAct/CoT-VLA 那种用推理压缩搜索空间的方向也是正交的——后者迟早会从上方把 sample-based MPC 这一层吃掉。

推荐指数:

SIM1#

Arxiv ID 2604.08544
幻觉翻译 2604.08544

把可变形物体操作的 sim-to-real 难点搬到"物理对齐"的数据引擎上,用真扫描 + 稳化软体求解器 + 扩散补轨迹生成合成数据

这篇的真正立意不是又一个 VLA 或者 policy,而是把”可变形物体的数据问题”明确为求解器问题而不是渲染问题。三步走 R2S2R 里,真正值钱的是中间那一环:在 Newton-VBD 之上做 Augmented VBD,当布料拉伸超阈值时注入虚拟弹性约束,把刚-软接触下最容易爆掉的 stretch 失稳压住,这是它敢声称合成数据能和真数据 1:15 等价的物理基础。第一步用高精度扫描把真衣物做成度量一致的数字孪生,第三步用条件扩散在稳定抓取片段之间补连接轨迹、再用二分类视频判别器过滤掉物理上不可信的样本,最后 Blender 多视角随机化外观——整体是把”扩散生轨迹 + 物理仿真当判官 + 渲染当外壳”组装成一个针对柔体的数据放大器。

批判地看,SIM1 真正解决的问题域比标题窄得多:它只在衣物这类弹性主导的场景里成立,对绳结、流体、面团这种拓扑/塑性主导的对象,AVBD 的 stretch 约束基本失效,论文也承认材料标定要逐资产手调专家参数,所谓”自动数据引擎”其实卡在前置的扫描和标定上。和同样在”放大数据”上发力的工作相比,UMI 走的是真机便携采集、Ψ0\Psi_0/RDT2 和 Pi-0.5 靠的是大规模异构真数据 + 跨形态预训练,GR00T-Dreams/Cosmos-Policy 走视频世界模型,SIM1 选择的”物理求解器当 ground truth”路线其实是最古典的一支,优势是物理一致性硬,劣势是覆盖不了接触富集且材料未知的长尾;下游策略本身只是 LeRobot 上的普通 IL,没有 Pi-0 系或 GR00T-N1.5 那种 VLA 级别的语义泛化,所以它的贡献应当被严格限定为”柔体仿真的数据合成基础设施”而不是通用机器人学习方案。

推荐指数:

VAG#

Arxiv ID 2604.09330
幻觉翻译 2604.09330

视频与动作双流 flow-matching 同步去噪,借自适应 3D pooling 把视频上下文喂给动作分支以生成成对合成数据

VAG 的本质是把”先生成视频再回归动作”这种两阶段套路压成一次同步去噪:视频流是 DiT,动作流是 1D U-Net,两者在 flow matching 的每一步都共享时间步,并通过 adaptive 3D pooling 把视频潜变量压成全局 token 注入动作分支。真正算得上一个选择的,是放弃 GR00T-Dreams、Cosmos-Policy 那种”world model 生成视频 + IDM 反解动作”的级联范式,转而让动作直接吸视频中间态的特征——这避免了视频生成误差被 IDM 二次放大,也省掉了 RDT2/Ψ0\Psi_0 这类大模型推理时再跑一次视频的代价。条件端就是首帧 + 文本,没多花活,整体是一个轻量的成对数据合成器而非端到端 VLA。

问题是把这个工作摆在当下 Pi-0.5、GR00T-N1.5、ThinkAct、CoT-VLA 的语境里看,野心明显不够:它既不打算像 OpenVLA/RT-2 那样直接做策略,也没像 GR00T-Dreams 那样把世界模型撑到长时序多任务的 scale,本质是个”喂 pretrain 的数据工厂”,而合成数据预训练涨点这件事 LAPA、UMI、EgoDex 已经反复证过,飞跃有限。更要命的是动作分支的容量被视频流绑死——pooling 出的 token 是全局压缩的,对接触丰富、需要细粒度时空对齐的任务(AMO、ExBody 那类全身控制)几乎肯定塌掉,而 LIBERO 这种桌面 benchmark 又无法把这个短板暴露出来。同步去噪听起来优雅,但视频比动作慢得多的频率错配并没有被认真处理,最终更像是用视频先验给动作做正则的一个 trick,而非范式级的改动。

推荐指数:

ProGAL-VLA#

Arxiv ID 2604.09824
幻觉翻译 2604.09824

把 LLM 规划出来的符号子目标和 3D 实体图通过对比学习硬绑定,再让 OpenVLA 只看绑定后的 goal embedding 而看不到原始语言

文章本质是给 VLA 加一个”语言必须经过实体验证”的瓶颈:YOLO-World + Metric3D 抽出 3D 实体节点放进 FIFO 大小 16 的记忆图,Qwen2.5-VL 每个 episode 异步出一次符号子目标(pick up the green mug → grasp_green_mug),再用 InfoNCE 把这个符号 token 和正确实体 embedding 在 3D 图里拉近,最后 OpenVLA-7B 的快策略吃验证后的 goal embedding gtg_t,原始语言被切断。真正不平庸的设计就这一点——它强制 atL(gt,Ot)a_t \perp L \mid (g_t, O_t),等于用架构而不是 loss 来杜绝”看图猜动作、忽略指令”的捷径,并顺手用 SACA 注意力熵做歧义检测;相比 Pi-0 / OpenVLA / RT-2 那种把 language token 直接拼进 transformer 让梯度自己学对齐的做法,这种”先 ground 再 act”的硬瓶颈在概念上是干净的,也比 CoT-VLA / ThinkAct 那种”让模型自己生成一段推理文本再回归动作”更可验证。

但越往里看越觉得这套东西的代价大于收益。整个 pipeline 假设场景能被离散的 object-centric 3D 节点描述完,对于 deformable、铰接、堆叠以及 EgoDex / UMI 那种富接触的人手数据基本不适用,瓶颈反而会丢掉 Pi-0.5 / GR00T-N1.5 那种连续视觉 token 流里隐含的几何与接触线索;FIFO=16 的记忆和 YOLO-World 词汇先验也意味着 open-world 一旦超出检测器闭集就直接退化成无 grounding 的 OpenVLA。“symbolic sub-goal 每个 episode 只规划一次”这种粗粒度根本不是 long-horizon 规划,连 AMO / ExBody 那种 whole-body 层级控制要的频率都达不到,更别提 GR00T-Dreams / Cosmos-Policy 在 world model 上做的细粒度展望;它解决的其实只是 LIBERO 里”指令短、单物体、单步抓取”的语言敏感性问题,作者自己造的 CAB 也是围绕属性冲突的,对 RDT2 / Ψ0\Psi_0 强调的长程双手协作几乎无话可说。论文的 Theorem 1 只是 InfoNCE → MI 下界的标准结论换皮,并非新东西,而 LAPA 用 latent action、CoT-VLA 用文本链都试过类似的”中间表示再生动作”思路,本文唯一的真正贡献是把这个中间表示强制做成对齐过的离散实体——干净,但脆。

推荐指数:

OmniUMI#

Arxiv ID 2604.10647
幻觉翻译 2604.10647

电动夹爪 + 双边力反馈 + 6 轴 F/T + 触觉的统一手持采集设备,UMI 的接触维度补完版

方法本质是把 UMI 这条「手持设备 → diffusion policy」的数据通路向接触维度做硬件级补完:用电动夹爪替掉机械扳机,从根上消掉了 trigger 形变污染腕部 F/T 读数的老毛病;同时主从夹爪做双边力反馈,让操作者在采集时就能「手感到」抓握内力,而不是事后从电流里推。真正算得上新东西的只有两点——一是 internal force(电机电流推出来的抓握力)、external wrench(重力补偿后的 6D)、tactile image、RGB-D 这套异构模态在同一支可复用的手持件上同步采到,并保持采集–部署 embodiment 一致;二是输出端不是位置而是 virtual target + stiffness,下游走 joint impedance,让接触任务不用在 force/position mode 之间切换。Policy 本身就是把这堆模态 concat 进 conditional U-Net diffusion,没有再造轮子。

批评向:这是一篇硬件系统论文披着 policy 论文的皮,policy 侧几乎是 UMI + DP 原样,触觉直接当图像塞进 encoder、没有任何专用 representation,这跟 Ψ0\Psi_0、RDT2 那种认真处理触觉时空结构的路线比是偷懒的;和 Pi-0/Pi-0.5/GR00T-N1.5 这些追求跨本体跨任务泛化的 VLA 不在一个目标函数上,所以也没法直接比,但这恰恰暴露了它的天花板——bilateral feedback 和 shared embodiment 的代价就是死锁在这一只特制夹爪上,AMO/ExBody 那种 retargeting 跨形态的可迁移性它没有,UMI 原本「随便买个 GoPro 就能采」的低门槛优势也被这套定制 hub 抹掉了。再加上没有大规模数据、没有预训练、没有 language conditioning,本质上还是单任务 behavior cloning 加更多传感器,离 Cosmos-Policy/GR00T-Dreams 那种 scale 路线和 ThinkAct/CoT-VLA 的推理路线都很远;真正的贡献应被定位为「force-aware UMI 的工程化参考实现」,而不是 manipulation learning 的方法论推进。

推荐指数:

AIM#

Arxiv ID 2604.11135
幻觉翻译 2604.11135

以空间价值图作为视频生成与动作之间的显式接口,强迫动作 token 只能通过 value-map 看未来

这篇的真正立意是承认”视频生成 → 动作”这条线本身有 structural mismatch:视频模型擅长拟合像素层面的 what,但操作真正需要的是 where/why 的交互意图,于是作者塞了一层 spatial value map 当作显式接口,让动作头不再从 RGB 未来帧里硬抠语义。落到结构上是 Wan2.2-TI2V-5B 之上挂一个 mixture-of-transformers,三路 token(RGB、value-map、action)共享 self-attention 但各自有 FFN,最关键的 trick 是 intent-causal mask:动作 token 不允许直接看未来 RGB,只能透过 value-map 走,这一刀把”未来视觉”和”控制信号”的耦合方式从 implicit 改成了 architectural enforced。第二阶段用冻住的视频/价值分支当 dense reward 来源做 GRPO 自蒸馏,只更新 action head,这种”用世界模型自身的预测一致性当 reward”的范式比常规 sparse success 要稠密得多。

但批判地看,value-map 这层接口本质上是 affordance/keypoint 这一脉的复刻——和 ReKep、CoPa 乃至 Ψ0\Psi_0 里 latent action 的”中间抽象”思路同源,只是被换上了 flow-matching + 共享 VAE 的外衣,所谓 novelty 更多在于把它焊进 video DiT 的注意力里而非概念本身;相比 Pi-0/Pi-0.5、GR00T-N1.5 那种直接 VLA 端到端打 flow-matching action expert,或 CoT-VLA/ThinkAct 用语言/视觉链路当中间桥,AIM 押的是 spatial 一路,赌注是 contact-rich 任务上 where 比 what 更重要,这在 RoboTwin 这种桌面 sim 上能成立,但放到 AMO/ExBody 这类 whole-body 或 UMI/EgoDex 那种 in-the-wild 数据下,value-map 的监督信号怎么来本身就是个开放问题,论文里默认 sim 给真值的设定回避了这个核心难点。此外 intent-causal mask 听起来漂亮,却也意味着如果 value-map 预测崩了 action 头基本无从补救,缺一个 RDT2/Cosmos-Policy 式的退化路径,整体更像 RoboTwin 专门优化过的 sim-friendly 架构而非通用解。

推荐指数:

StarVLA-α#

Arxiv ID 2604.11757
幻觉翻译 2604.11757

主张极简 VLA 配方:Qwen3-VL 骨干 + MLP 动作头 + 统一数据管线,挑战 Pi-0 / Pi-0.5 的复杂动作建模

方法的本质是一次”反消融”实验:作者把 VLA 的动作头从 Pi-0/Pi-0.5 与 RDT2 偏爱的 flow-matching / diffusion 砍回最朴素的 MLP,直接读取一个 designated action token 的隐藏态回归连续动作 chunk,骨干换成原生融合视觉的 Qwen3-VL,并对 LIBERO、SimplerEnv、RoboTwin、RoboCasa 用同一套数据管线(原始 RGB + 指令 + 零填充到 32 维动作空间)联合训练。真正算得上 novel 的不是结构,而是它把 GR00T-N1.5、Pi-0.5 那一套”双系统 / flow matching / 大规模 OXE 预训练”挨个关掉之后,发现差距收敛到 scenario-dependent 的噪声水平——尤其指出在足够 task data 之下,proprio、history frames、delta action 这些被 OpenVLA / RT-2 后继工作奉为标配的”工程小料”几乎无收益。这套结论指向一个相当反潮流的判断:当前 VLA 的性能上限主要由 VLM 初始化决定,而不是动作建模的形式。

批评地看,这篇本质是 Pi-0.5 / OpenVLA 路线的”祛魅论文”而非新方法,价值在于打掉社区里一堆未经检验的设计迷信,但它自身的盲点也非常清晰:所有结论都建立在 LIBERO 这类已被刷烂的 benchmark 与 RoboChallenge 单一真机平台上,跟 AMO、ExBody 这种 whole-body humanoid、或 UMI / EgoDex 这种纯被动数据驱动的 setting 完全不在一个分布上,“MLP 够用”的结论在长时序、接触丰富、跨形态 retargeting 场景几乎肯定不成立。它对 ThinkAct / CoT-VLA / LAPA / Ψ0\Psi_0 那类”显式中间表示(reasoning chain、latent action、world model)“的反驳也是间接的——只是说在它的 benchmark 上不需要,而非证明这些抽象层在 OOD 与长程任务上没用;同理它对 GR00T-Dreams / Cosmos-Policy 这种 video-prior 路线毫无触及。简而言之,这是一篇”在 in-distribution 数据充足时,把 VLA 简化到极致仍能打”的诚实 baseline,但把它当作”复杂动作建模无用”的一般性证据会严重过度推广。

推荐指数:

XRZero-G0#

Arxiv ID 2604.13001
幻觉翻译 2604.13001

VR inside-out tracking + 双异构夹爪的便携采集装置造 robot-free 数据,配合闭环 IK / 回放校验和 10:1 配比刷数据规模

方法的本质就是把 UMI 那一套手持夹爪换成 VR 头显加背包的可穿戴形态:用 PICO 4 的 inside-out tracking 替掉容易漂的 visual SLAM,拿到毫米级 6-DoF,再配 H 形按压夹爪和 G 形手指夹爪两种形态分别覆盖粗抓和精操;采完之后跑一套 Collection-Inspection-Training-Evaluation 流水线,先视觉滤模糊和静止帧,再用 IK 过关节极限和自碰撞,再在真机上 open-loop 回放验证,最后才进训练集,把 robot-free 数据的有效率拉到 85%。真正算得上 novel 的选择只有一个:把 robot-free 数据的质量管控从 UMI/EgoDex 那种”采了就用、靠模型自己消化噪声”的开环方式,改成在数据进入训练之前先用目标本体的 IK 和真机回放过一遍筛子,等于把 embodiment gap 的一部分提前在数据层解掉;10:1 的 robot-free:real 配比也是在这个前提下才立得住,而不是另起炉灶的算法贡献。

批判地讲这篇基本是工程论文而不是方法论文,policy 直接挂 π₀/π₀.₅/Wall-OSS,自己不碰 architecture,所以和 GR00T-N1.5、RDT2、Pi-0.5 这种在 backbone 和 action head 上做文章的工作完全不在一个讨论层面;相比 UMI 的真正进步只是把手持换成头戴 + 背包、把 SLAM 换成 inside-out,EgoDex 早就用过 VR tracking 采人手数据,Ψ0\Psi_0 和 LAPA 也都论证过 human/robot-free 数据预训练的价值,所以”VR + 异构夹爪”这个组合更像是把已有套路重新打包,新意有限。最大的隐患在于回放校验本质上是个双臂特定本体上的过滤器,意味着这批 2000 小时数据其实是绑死在采集时的目标机器人配置上的,所谓 “zero-shot transfer to different embodiments” 在跨形态(人形全身、灵巧手、移动底盘)时会立刻退化成普通的 robot-free 数据集,和 Cosmos-Policy/GR00T-Dreams 那种从仿真或视频生成里拿跨本体监督的路线相比,扩展性上没有结构性优势。

推荐指数:

HTD#

Arxiv ID 2604.13015
幻觉翻译 2604.13015

把触觉当作核心模态,通过 EMA 教师做"触觉 latent 梦境"自监督来正则化 BC 策略的人形接触富操作框架

方法本质是一个多视角视觉 + 本体感知 + 手指力 + 1062 维分区触觉的多模态 encoder-decoder Transformer,配合一个 PPO 教师-学生蒸馏的下肢躯干追踪控制器,让上肢策略可以在 BC 范式下专注接触富操作。真正算得上 novel 的选择只有一个:放弃重建原始触觉张量、也不做单独的触觉预训练,而是让一个 EMA 慢更新的触觉 tokenizer 作为 stop-grad 教师,对未来若干步的触觉 latent 同时做方向(cosine)和幅值(Huber)双项预测,再叠加未来手指力的 smooth L1,作为共享 trunk 的训练时辅助 loss,部署时整个”梦境”分支直接丢掉。相比 Pi-0/Pi-0.5、GR00T-N1.5、OpenVLA、RT-2 这种把触觉当作可选额外 token 塞进去的做法,HTD 的诚意在于把触觉拔高到与 vision 同级的预测目标,并用 DINO 式 EMA 自蒸馏来回避 1062 维稀疏触觉直接回归的 collapse 与噪声放大问题;按动作模态拆分 expert 头(位姿 / 速度 / 手)也是个朴素但合理的工程取舍。

批判地看,这篇本质上是把 BYOL/DINO 的自蒸馏目标移植到触觉模态,再把它套进一个 ACT-flavor 的 chunked BC 策略里——故事并不像标题”Dreaming”暗示的那样有世界模型味,所谓 dream 只是辅助 latent 预测,没有 rollout、没有规划、与 GR00T-Dreams、Cosmos-Policy、ThinkAct、CoT-VLA 那条用生成式想象/推理驱动决策的路线不在同一层次,更接近 RDT2/UMI 这种”用更好的表征监督让 BC 不那么脆”的工作。下肢用一个独立的 RL 跟踪控制器解耦也是 AMO / ExBody / Ψ0\Psi_0 已经反复验证过的套路,缺乏对全身耦合接触(脚-手力学耦合)的处理;任务集中在 5 个桌面 + 半身接触任务,没有像 LIBERO/EgoDex/LAPA 那样在数据规模与跨实体泛化上回答问题,因此触觉 latent 监督到底是因为提供了真正接触感知、还是仅仅提供了一种比像素更稳定的自监督信号,论文并没有切干净;EMA 系数、chunk 长度、两个 λ 权重的敏感性也未被充分剖析,工程价值大于科学发现。

推荐指数:

WAV#

Arxiv ID 2604.14732
幻觉翻译 2604.14732

把 VLA 的动作生成搬到 video + value 双隐空间里做 CEM 式迭代采样,规避动作空间长程可行性指数衰减

方法本质是一个三段式 flow matching 训练的世界模型–价值–动作堆叠:先用 DiT 学语言条件的多视角未来视频生成,再冻住视频模块训一个对潜变量做 cross-attention 的轨迹价值头(以 SNR 聚合多次采样作为可信度),最后联合训动作 decoder。真正不水的设计点是推理时不在动作空间直接 rollout,而是在 video latent 与 value latent 两个高斯噪声空间里做类似 CEM 的 elite 重采样——用价值模块的 SNR 给视频样本打分、迭代收紧两个噪声分布,再把胜出的隐变量喂给动作头解码。作者把这个动机讲成”可行轨迹在动作空间随 horizon 指数衰减,而隐空间天然集中在动力学可行流形上”,这至少是个比一般”加个 world model 辅助 loss”更明确的论证。

但放在 Pi-0.5/GR00T-N1.5/RDT2 这些已经把 VLA 训练规模拉满的语境下,WAV 的代价是推理需要做 M×N 次视频与价值采样再 CEM 迭代,实测中的”长程优势”很可能是被这套测试时计算白嫖出来的,而非隐空间规划本身的胜利;论文也没和 ThinkAct、CoT-VLA 这类显式 latent reasoning 或 GR00T-Dreams 那种 dreaming-as-data 路线做对照,无法分辨究竟是规划机制还是世界模型的视觉先验在起作用。更根本的问题是价值函数用 flow matching 拟合累积折扣回报,在缺乏在线交互、奖励多来自轨迹回放的设定下,它评的更像”像训练分布的程度”而非真实 Q 值,这跟 VLA-RFT/WMPO 被诟病的 compounding error 是同一个病只是换了层皮;LIBERO 这种短程任务上的小幅提升、与 EgoDex/UMI 这类大规模真机数据范式的脱钩,也让”隐空间规划”的可扩展性存疑。

推荐指数:

OmniVLA-RL#

Arxiv ID 2604.17706
幻觉翻译 2604.17706

把 flow matching 改写成 SDE,再用 block 级 GSPO 在 LIBERO 上做在线 RL 微调的 VLA

方法本质是一个三专家 MoT:PaliGemma 当推理底座、VGGT 蒸馏几何信息进 spatial expert、flow matching 当 action head;推理时 spatial 监督头 detach 掉,只留下注入到主干的几何特征。真正算得上新意的不是堆 VGGT,而是把 flow matching 的 ODE 通过 Fokker-Planck 改写成 SDE,从而让本来是确定性回归头的 action expert 具备了 RL 所需的随机探索能力,再配上 block-causal attention 保证去噪噪声不会反向污染视觉/语言 prefix。在此基础上把 GSPO 提到 action chunk 粒度,避免 GRPO 在 token 级算 importance ratio 时的方差爆炸,这是把 RL 真正接进 flow-based VLA 的关键工程点。

批判地看,这篇基本是在 LIBERO 这种短程闭集任务上做 RL 收敛性的演示,谈不上 Pi-0/Pi-0.5/GR00T-N1.5/RDT2 那种规模化数据与跨本体能力,spatial expert 用 VGGT 蒸馏几何更像是给小模型补课,跟 Ψ0\Psi_0、Cosmos-Policy、GR00T-Dreams 走的世界模型/生成式数据路线完全不在一个层面;和 OpenVLA、RT-2、LAPA 这些纯 SFT 派比,它的卖点只剩”在线 RL 能稳定地跑 flow VLA”,而不是任何真实的物理或长程任务能力。最致命的限制是 reward 依赖仿真里手搓的任务成功信号,离 UMI、EgoDex 这种真机数据闭环、或 AMO/ExBody 那类全身控制的现实约束都很远,把 SDE+GSPO 这套搬到真机或长程任务上是否还能稳定收敛,本文完全没有回答;ThinkAct/CoT-VLA 那种显式推理链路在它的”reasoning expert”里也只是名字,没有任何 CoT 监督或行为,所以严格说更像一个 LIBERO 刷分用的 RL 训练技巧,而不是 VLA 路线上的方法论推进。

推荐指数:

ReFineVLA#

Arxiv ID 2604.17800
幻觉翻译 2604.17800

用 Gemini 当老师给机器人数据塞 CoT rationale,再以加权语言建模损失蒸馏进 SpatialVLA

方法本质就是给 SpatialVLA 这个 3.5B 的 PaliGemma-2 VLA 做一次”理由增强”的监督微调:作者用 Gemini 按”观察—情境—空间—规划”四段式 prompt 给 OXE 子集的每条轨迹生成一段文本 rationale,然后训练时在原本的 action BC loss 之外额外加一项权重为 0.3 的语言建模 loss 去拟合这段教师文字。真正算得上有点意思的设计点是它没有像 CoT-VLA 那样让模型在推理时自回归吐 CoT 再出动作,而是把 reasoning 当作训练期的辅助正则项,推理时只跑 action head——这等于把 ECoT/CoT-VLA 的显式 chain-of-thought 退化成了一种”隐式蒸馏”,对延迟敏感的真机部署算是一个工程上合理的折中,并且作者还顺手用 attention map 去做了一些 vision-language-action 对齐可视化作为分析证据。

但越往下看越觉得这篇是典型的”贴一个 LLM 老师当数据增广”的论文,在 Pi-0/Pi-0.5、GR00T-N1.5、Ψ0\Psi_0 这一波已经把 VLA 数据配方、flow-matching action expert、跨形态共训都做透的背景下,它的贡献几乎只是 OpenVLA→ECoT→CoT-VLA→LAPA 这条线的又一次重炒,且选择的是 reasoning 最稀薄的版本——Gemini 生成的四段式 rationale 本质上是从单帧图像和指令反推出的事后合理化,既没有 GR00T-Dreams 那种世界模型 rollout 提供的物理 grounding,也没有 ThinkAct 的 reasoning-action 强化对齐,更没法和 UMI/EgoDex 那种来自真实人类行为的隐式 prior 比;评测也只在 SimplerEnv 这种已知对 prompt 工程极其敏感的仿真上跑,没有 LIBERO 长程组合任务、没有真机、没有 OOD 物体或语言扰动的 ablation,无法证明加进去的 reasoning loss 学到的是空间推理还是只是教师风格的语言先验,λr=0.3\lambda_r=0.3 也几乎肯定是 over-tuned 在这一两个 benchmark 上的数字。

推荐指数:

ST-π#

Arxiv ID 2604.17880
幻觉翻译 2604.17880

把 VLA 拆成显式子任务 token(语义 + bbox + 时长)再喂给双注意力动作专家的层级化 CoT-VLA

方法本质是把一段操作任务从 VLM 端先拆成有序的 chunk-level 子任务 prompt,每个 prompt 由语义 token、空间 token(监督到目标物体的 bbox)和时间 token(监督到子任务持续时长)组成,再用一个共享 backbone、双分支注意力的 action expert 把这些 prompt 解成动作:spatial 分支用双向注意力做轨迹平滑,temporal 分支用因果注意力保证步间一致性,最后用时间相关权重从 spatial 主导渐变到 temporal 主导。相对真正”原创”的地方只有两点:一是把 CoT-VLA / ThinkAct 那种自由形式的中间推理强约束成”bbox + 时长 + 语义”的结构化三元 token,二是把同一段 action chunk 在 spatial 和 temporal 两套 attention mask 下并行生成再融合,而不是单一 causal 或单一 bidirectional 的 flow/diffusion 头。其余的 4D Fourier 位置编码、block-wise causal attention 都是套餐配置。

批判地看,这套设计其实是 CoT-VLA / LAPA 的 latent action 与 Pi-0/Pi-0.5 的 action expert 的硬拼接,加了一层”bbox + 时长”作为锚点。问题在于:bbox 当作 spatial grounding 对 Pi-0.5 这种已经把开放词汇检测当作隐式中间表示的路线没有质变,时长 token 在真实操作里几乎不可预测,作者自己也承认 sequential chain 假设挡住了任何有并行或分支结构的长程任务(这恰恰是 GR00T-N1.5、Ψ0\Psi_0 在尝试用 dreams / world model 解决的部分)。dual-generator 的 spatial/temporal 分离更像是把同一个去噪过程换两套 mask 跑两遍再加权,并没有解释为什么 bidirectional 一定对应”空间”、causal 一定对应”时间”——这只是命名学;相比 RDT2、Cosmos-Policy 直接在 flow matching 里用单一 transformer 同时拟合时空相关性,缺乏理论必要性。STAR 数据集是真贡献,但整篇方法读下来更像是给 OpenVLA / RT-2 范式打了个层级 patch,而不是像 AMO/ExBody 那种把控制结构当作一等公民来设计。

推荐指数:

MaskWorldModel#

Arxiv ID 2604.19683
幻觉翻译 2604.19683

把世界模型预测目标从 RGB 换成语义 mask,作为几何信息瓶颈喂给 diffusion policy

方法本质是一次”预测目标的替换”:不让世界模型再去重建 RGB 像素,而是预测未来帧里机械臂与任务相关物体的语义 mask(离线用 RoboEngine 标,把离散掩码 palette 化后过同一个 VAE,避免引入新 tokenizer),用 flow matching 在 DiT 上做掩码动力学预训练,再冻结骨干、用 Predictive Feature Bank 把每层时空特征逐层 cross-attend 进 diffusion action head。真正算”选择”的只有一件事——承认 pixel-level future prediction 对策略来说大半是噪声,于是用 mask 当几何瓶颈把光照/背景/纹理这些 nuisance 直接从监督信号里扣掉,推理时又不需要任何分割模型,等于把 SAM 类先验当训练期蒸馏用而非运行期依赖。相比 GR00T-Dreams、Cosmos-Policy 那种生成完整 RGB 未来再回灌策略的路线,这是更诚实的一刀。

批判地看,这篇的核心赌注是”mask 已经覆盖了控制所需的几何与接触信息”,但 mask 本身是二值/类别的,缺乏 depth、法向、接触力这些真正决定 contact-rich 操作的量,所以瓶颈是过紧还是过松完全取决于 RoboEngine 标得有多准,离 Ψ0\Psi_0、AMO、ExBody 这类要管 whole-body 接触的设定还很远,基本只能停在 LIBERO/RLBench 的 tabletop pick-place。其次两阶段冻结骨干 + 逐层 feature bank 与 ThinkAct、CoT-VLA 走”显式中间表征再生成动作”是同一种思路,但这里中间表征不可读、不可干预,相比 LAPA 的 latent action 或 RDT2/Pi-0.5 的语言-动作联合也少了 scale 起来的接口;与 OpenVLA、RT-2、Pi-0 这种端到端 VLA 比,它放弃了互联网级语义先验,只换来对 distractor 的鲁棒,泛化到新物体类别、新指令时反而更依赖标注覆盖面,工程上是把脏活从推理期搬到了数据期而已。

推荐指数:

VLA Foundry#

Arxiv ID 2604.19728
幻觉翻译 2604.19728

把 LLM → VLM → VLA 三段式预训练塞进同一个代码库的开源工程包,外加 flow-matching action head

方法本身没什么”模型创新”可言:1.2B 自训 LLM + 86M ViT + 325M flow-matching action expert,用观测 token 取 VLM 最后 4 层 hidden state 去 condition 一个 flow transformer 来去噪动作序列——这套结构基本就是 Pi-0 的双系统范式换皮,flow-matching 也不是新东西。唯一算得上”真实选择”的,是把整条 pipeline(语言预训练、视觉对齐、动作微调、数据归一化、SE(3) 相对动作、percentile normalization)全部塞进同一个 Draccus-YAML + frozen dataclass 的单体框架里,并支持 Qwen3-VL 这类 HF backbone 零代码替换。换句话说,论文的”贡献”是工程一致性而不是算法——它把 OpenVLA 那种”拼装感”和 Pi-0 那种”闭源黑盒感”中间的空地占了,主打 from-scratch 全开 + LBM Eval 闭环评测的可复现性。

但作为一篇 paper 这就显得很空。和 Pi-0/Pi-0.5 比,它没有跨本体 co-training、没有 high-level reasoning 分层、没有 Pi-0.5 的开放世界泛化论证;和 GR00T-N1.5 比缺少 neural trajectory / dream data 的数据放大手段;相对 ThinkAct、CoT-VLA、Ψ0\Psi_0 这些把 reasoning chain 显式塞进策略的工作,VLA Foundry 连一个像样的语言-动作耦合机制都没探讨,observation token 取 last-N 层 hidden 这种做法 RDT2、OpenVLA 早就用过。数据侧 42 sim + 361 real 全是 stationary bimanual,覆盖度还不如 EgoDex/UMI,谈不上验证框架”通用性”;声称从零训练能 on par with closed-source 但避谈具体哪些任务、与 AMO/ExBody 这类 whole-body 或 LAPA/GR00T-Dreams 这类 latent-action 路线根本不在一个评测域。本质上这是一篇 infra release 论文披着 method paper 的皮——对社区有用,但用 paper 标准衡量是典型的 Policy Paper:把工具链当作算法贡献来卖。

推荐指数:

UniT#

Arxiv ID 2604.19734
幻觉翻译 2604.19734

以视觉一致性为锚把人与人形机器人的异构动作压进同一套离散 token,再分别喂给 VLA 和世界模型

方法本质是做一个跨本体的动作 tokenizer:承认人与人形的运动学不同但视觉后果相似,于是用 DINOv2 编码的视觉 transition 当 inverse dynamics 分支,与本体相关的 action 分支、以及二者融合分支共享一个 RQ-VAE 码本,三路都被要求重建对方(视觉重建未来视觉特征,动作重建本体特定 action),借此把”本体味道”挤出 token、留下视觉可观测的物理意图。下游用法就两条:VLA-UniT 让 VLM 预测这套统一 token、再由一个轻量 flow matching head 落到具体本体的动作;WM-UniT 把量化前的连续特征当作视频生成的条件,做人到人形的视频级动作迁移。真正比堆模块更有信息量的选择是 cross-reconstruction 这一步——它不只是把人和机器人的动作拼到一个码本里(那种事 LAPA 早干过),而是用视觉前向/逆向动力学双向夹逼,强迫 token 同时对得起”我看见的变化”和”我应该输出的控制”,比 LAPA 仅靠视频自监督学 latent action 多了一层物理一致性约束。

但批判地看,UniT 的卖点和它的弱点是同一件事:所谓”统一物理语言”完全建立在 DINOv2 视觉特征已经能把人手和机械手的接触/位移视为同一事件的假设上,一旦视角、第一人称/第三人称、或者形体差异稍大(比如 EgoDex 那种纯第一人称对 GR00T-N1.5 的全身遥操),视觉锚点就会塌成”看起来差不多但物理后果完全不同”的伪对齐,这个失败模式论文没有正面回应。其次,把跨本体落在离散 token 上意味着精细操作的瓶颈被推给了下游的 flow matching head,本质上和 Pi-0.5 / RDT2 把 VLM 当语义规划、用 expert 头吐 action 的分工没有结构性差别,UniT 只是把”语义”换成了”视觉一致的物理意图”——相比 AMO/ExBody 这种直接做 whole-body retargeting,或 Ψ0\Psi_0 那种把人体动作当显式 prior 的做法,UniT 在 contact-rich、力学相关的任务上很可能让位;而对世界模型分支,用连续 pre-quant 特征做条件已经退化成”换了个名字的 action embedding”,和 GR00T-Dreams / Cosmos-Policy 用原始动作条件相比是否真的提供了可迁移性,论文给的 t-SNE 是必要而非充分证据。

推荐指数:

JoyAI-RA#

Arxiv ID 2604.20100
幻觉翻译 2604.20100

又一个把人类视频、仿真和真机数据揉在一起做动作空间统一的 VLA 基座模型

JoyAI-RA 0.1 的核心套路是把 web 图文、大规模第一视角人类操作视频、仿真轨迹和真机数据塞进一个 multi-source multi-level 的预训练框架里训一个 VLA,关键卖点是”显式 action-space unification”——把人手、不同本体机器人的动作映射到一个共享空间,从而让人类视频里的操作先验能直接给真机用。相对于 Pi-0/Pi-0.5 那种依赖 flow matching action expert、GR00T-N1.5 用 latent action 桥接人类视频、以及 LAPA 用 VQ latent action 做无标签预训练的做法,这里选择走”显式对齐”而不是”隐式潜动作”的路线,算是一个具体但不算激进的工程选择,本质上更像 EgoDex/UMI 那类把人手轨迹直接当成机器人动作监督的延伸。

问题是从方法描述看不到任何真正回答”为什么显式统一就比 latent action 好”的设计——既没有 Pi-0.5 那种 high-level 语义规划 + low-level 动作的分层,也没有 ThinkAct/CoT-VLA 那种显式推理链,更没有 GR00T-Dreams/Cosmos-Policy 那种用世界模型生成数据闭环的野心,本质上是把 OpenVLA、RT-2 的多源数据配方再扩一遍并强调跨本体。动作空间统一在异构夹爪/灵巧手/双臂之间一定会丢信息,论文没有讨论这种 lossy projection 在精细操作上的代价;评测也基本停留在 LIBERO 类仿真和有限真机任务,缺乏对 Ψ0\Psi_0、AMO、ExBody 那种全身或长时序任务的硬碰硬比较。归根结底这是一篇典型的”data + scale + 一个统一 trick”的 policy paper,故事讲得圆,但没有给社区贡献新的归纳偏置。

推荐指数:

PokeVLA#

Arxiv ID 2604.20834
幻觉翻译 2604.20834

1.22B 小 VLA + 多视角分割辅助 + VGGT 几何蒸馏,主打口袋尺寸的 LIBERO 刷分

PokeVLA 的本质是一套围绕 1.22B 小 VLM 堆出来的 LIBERO 选手,真正动手的地方只有两处:一是用一个 <SEG> token 在 wrist/base 双视角上做粗到细的目标分割蒸馏,把 SAM 的 mask decoder 当成辅助监督塞进 VLM 旁路;二是训练时用 VGGT 的 3D 特征对视觉 token 做 cosine 对齐(geometry alignment),只在训练期生效、推理零开销。Action expert 则是常规的 self-attn + 三路 cross-attn(query/state、visual、<SEG>)出 chunk,外加一个 2.4M 条的 embodied 预训练数据集做 grounding/affordance/reasoning。其中”VGGT 特征做训练期蒸馏,避免推理时跑 3D backbone”这一条算是相对干净的选择,比 Pi-0.5 那种重型 VLM + flow matching 路线确实更适合落到小模型上。

但严格来说,这篇就是典型的 pile-of-modules:分割损失、几何对齐、专用 action head、定制预训练集,四件套缺一不可才能拼出报告里的”synergy”,而每一件单拿出来都不新——目标 mask 监督在 RT-2 之后的一票 VLA 里反复出现,VGGT/3D-foundation 做 spatial forcing 同样被 GR00T-N1.5/Ψ0\Psi_0 之类玩过,action query + cross-attn 头则是 Pi-0 和 OpenVLA-OFT 的常规组合。和 Pi-0.5 / GR00T-Dreams 这种押注 world-model 或大规模异构数据的工作相比,PokeVLA 更像是一篇”我把已知有效的 trick 在小模型上重新过一遍 LIBERO-Plus”的工程报告:真实场景只剩对扰动鲁棒性这种弱声明,没有 UMI/EgoDex 级别的数据野心,也没有 ThinkAct/CoT-VLA 的推理-动作解耦观点。最大的局限在于其方法收益高度依赖辅助监督和定制预训练,迁移到没有清晰 manipulation target 的任务(双臂协调、全身控制如 AMO/ExBody 场景)时,<SEG> 这条主线基本失效。

推荐指数:

Open-H-Embodiment#

Arxiv ID 2604.21017
幻觉翻译 2604.21017

把 GR00T-N1.6 与 Cosmos-Predict 2.5 在 600+ 小时多机构手术机器人数据上微调,做出一对手术领域的 VLA 与动作条件世界模型

方法本体几乎可以一句话讲完:拿 GR00T-N1.6-3B 作为 VLA 骨干、Cosmos-Predict 2.5 作为视频扩散世界模型,全部在新整理的多机构手术数据集上微调。真正算得上手术领域特化、而非照搬 GR00T-N1.5/Cosmos-Policy 的设计只有两点:一是为每一台具体机械臂(甚至同型号不同个体)单独挂一个 MLP action head 接在共享 DiT action expert 之后,用来吸收线驱手术机器人个体之间标定漂移与机械差异;二是统一把所有平台动作改写到末端 EEF 相对位姿 + 6D 旋转矩阵这种”免学正运动学”的表征上,再做按维度、按时间步的 z-score 截断归一。世界模型那边的真新意是单一 checkpoint 跨九种手术平台,并被反过来当 closed-loop 评测器,用以缓解手术里 val loss 与实机成功率几乎无关的老问题。

但坦白讲,这更像是一篇”医疗版 GR00T-Dreams + GR00T-N1.5 适配报告”而不是新方法:相对 Pi-0/Pi-0.5 没有引入流匹配或层次化推理改造,相对 GR00T-N1.5/AMO 没有触动 VLA-控制接口,相对 CoT-VLA/ThinkAct 没有推理链,也不像 RDT2/UMI/EgoDex 那样在数据采集模态上做出范式级别的创新——核心贡献仍是数据规模与领域可用性。Per-embodiment head 的可扩展性是隐患:每新增一台 dVRK/Versius 个体就要再训一个头,本质上把 Pi-0.5/GR00T-N1.5 力推的”共享多本体策略”退回到了多任务多头微调;EEF 相对控制虽然回避了 FK,但在缝合这种需要绝对组织位姿的子动作里实际上把误差累积转嫁给了 chunk 内的时间一致性,论文也只在结构化基准上验证,并未与 Cosmos-Policy/Ψ0\Psi_0 这类大模型基线在 LIBERO 之外的手术闭环上做对照;最关键的是,世界模型选 checkpoint 这一最大方法亮点缺少与 GR00T-Dreams 式 dreamed-rollout 训练或纯 sim2real 的横向比较,因此目前更接近一个有力的基础设施工作而非可迁移的方法学贡献。

推荐指数:

dWorldEval#

Arxiv ID 2604.22152
幻觉翻译 2604.22152

把视觉、语言、动作全部离散化喂进同一个掩码扩散 Transformer,附带 progress token 直接当成功判定器,用来做策略评估而不是做策略本身

这篇的核心不是又一个 World Model,而是把”评估”这件事单独拎出来重做:与 Cosmos-Policy、GR00T-Dreams 那类拿预训练视频模型加 action condition 的路线相反,作者直接把 MAGVIT-v2 的视觉 token、FAST 的 action token、文本 token 串成一条序列,从零训练一个 masked discrete diffusion Transformer,让 action 不再是 cross-attention 上挂的小尾巴而是和像素同权的一等公民。真正有意思的设计有两点:一是 sparse keyframe memory,只保留 K=4 帧的低分辨率全局视图当历史,避免长 horizon 漂移又不至于把 context 撑爆;二是把 SEED-1.5VL 打的 0~1 progress 分数离散化成文本 token 一起去噪,使得世界模型在 rollout 中自带成功判定,不再需要外挂 VLM 当裁判,也顺手解决了 LIBERO 类 benchmark 里 reward function 被滥用的问题。作者另外提出 Δ-LPIPS 来量化”动作真的引起了状态变化”,比纯帧级 LPIPS 更能戳穿那些靠视觉先验自动续写成功的世界模型。

但这本质上仍是一个评估器而非策略,和 Pi-0/Pi-0.5/GR00T-N1.5/RDT2/OpenVLA 这些 VLA 不在一条赛道上,更应该和 WorldEval、Ctrl-World、WorldGym 比,而 EgoDex/UMI/LAPA 那类侧重数据与表征的工作此处也借不上力。我最大的怀疑在于”从零训”的代价:放弃 Cosmos/GR00T-Dreams 级别的视频先验之后,模型在真实机器人未见物体、未见光照上的外推能力很可能比作者展示的 LIBERO+RoboTwin 要脆得多,而恰恰是这种 OOD 才是策略评估最需要可信度的场景。Progress token 也存在循环论证风险——用 VLM 标注训出来的成功判定器去裁判策略,等于把 VLM 的 bias 烘焙进了 benchmark,与 ThinkAct/CoT-VLA 用语言 chain 监督动作时遇到的问题同构。另外 sparse keyframe 一旦遇到 AMO/ExBody 这种需要精细足-躯干耦合的全身控制任务,4 个低清关键帧根本兜不住接触动力学,论文回避了非桌面任务也说明了这一点;它更像是 manipulation benchmark 的内部裁判,而非通向 Ψ0\Psi_0 级通用具身评估的路径。

推荐指数:

LeHome#

Arxiv ID 2604.22363
幻觉翻译 2604.22363

面向家庭场景可变形物体操作的全栈仿真环境,配套 Action Graph 因果建模与低成本机器人基准

这篇工作把家用场景里六类可变形对象(液体、气体、颗粒、线状、薄壳、体积体)按物性分别绑定到 PBD/FEM/Eulerian Flow 等求解器上,搭出一个相对完整的家居仿真栈,再附带一套以 LeRobot/LeKiwi/XLeRobot 为代表的低成本平台 teleop 与基准任务(叠衣、抖衣、组汉堡、切香肠、倒咖啡、擦桌)。真正算得上小创新的点是 Action Graph:把”切割""倾倒”这种语义事件显式建成属性-节点-连接的因果图,由 trigger 触发 mesh 分割、对象生成与状态更新,从而绕开了纯物理求解器对宏观语义事件(如香肠被切成两段、面包被夹起)支持薄弱的问题。其余诸如域随机化重放、leader-follower 遥操、Diffusion Policy / ACT / π0 / SmolVLA 跑通基线,基本都是承袭 LIBERO 那一支的工程组合。

批判地看,这套系统的定位仍是”又一个仿真器”,相比 LIBERO 主要堆了可变形物理与低成本机器人这两条增量,但并没有回答可变形仿真最致命的 sim-to-real gap 问题——PBD 布料的褶皱分布和真实棉麻、FEM 香肠的切割断面与真实肉类的力学响应都难以对齐,论文给出的”共训 10 条真机 demo 把成功率从 15% 提到 50%“恰恰说明纯仿真策略迁移并不成立,更像是把仿真当数据增强而非可信评测床。Action Graph 本质上是把作者预设的因果脚本硬编码进物理引擎,对未见过的语义事件不可泛化,与 GR00T-Dreams、Cosmos-Policy 那种用世界模型/视频生成去合成长尾交互的路线相比,封闭性明显;如果想替代 EgoDex、UMI 这类真实采集管线,至少需要给出可变形对象上跨任务、跨形态的零样本泛化证据,而非把基准锁死在六个手工设计的家政任务里。

推荐指数:

RedVLA#

Arxiv ID 2604.22591
幻觉翻译 2604.22591

对 VLA 做物理红队:在良性轨迹的关键交互区注入风险物体并用零阶优化放大不安全行为,再训一个轻量 Guard 防御

这篇文章把”红队”这套从 LLM 安全圈搬过来的思路真正落到了 VLA 的物理层面,核心不是堆模块,而是把”风险场景”建模成轨迹的几何函数:从一条良性 rollout 里解析出 Transit / Grasping / Vibration 三类临界交互区,再把易燃、易碎、人体等风险物以零阶优化沿着轨迹空间锚点做梯度上升式挪位,直到任意一个被测 VLA(在 LIBERO 上跑的 OpenVLA、Pi-0 之类)产生可观测的不安全行为。真正比较新的一点是把安全成本拆成 State-Level / Cumulative-Level / Conditional-Level 三层——尤其是 Conditional 这一层显式建模”先打翻才碰倒”这种时序因果,比起 ThinkAct、CoT-VLA 那种只在语言侧谈”推理”的工作,至少把因果放到了评测函数里。配套的 SimpleVLA-Guard 就是常规的拒动作小头,主要功能是给 RedVLA 的攻击数据一个闭环出口。

批判地看,问题相当典型:评测全在 LIBERO 这种桌面抓取小盒子里做,所谓 “physical red teaming” 离 AMO、ExBody 那种 whole-body、或者 Pi-0.5 / GR00T-N1.5 / Ψ0\Psi_0 真正会在杂乱真实环境跑的策略还差一个量级,攻击成功率更多是 LIBERO 物理引擎和短程模仿策略本身脆弱的副产物,不是 VLA 通用结论。其次零阶优化 + 几何先验 “挪一个风险物” 本质上是在物体级别做对抗扰动,没碰策略输入分布的真正难点(光照、纹理、language instruction 的歧义、long-horizon 中段失败),所以和 UMI / RDT2 / Cosmos-Policy / GR00T-Dreams 这类强调数据与世界模型分布的工作并不在同一战场。最后 SimpleVLA-Guard 的训练数据完全来自 RedVLA 自己合成的攻击,存在标准的”自己出题自己答”循环,缺乏 EgoDex 之类真实人类交互数据的 OOD 检验,作为防御方法的可信度有限。

推荐指数:

GazeVLA#

Arxiv ID 2604.22615
幻觉翻译 2604.22615

用 gaze 作为 human → robot 跨本体的中间表征,pretrain 在 egocentric 视频上预测意图,再 CoT 式先出 gaze 再出 action

方法本质是把”人类意图”具象化为 gaze 坐标,作为 V-L-Intention-A 链条里的中间 token:先在大规模 egocentric 人类视频(含 EgoDex 这类资源)上预训练一个能同时输出 gaze 和动作的模型,再用人 + 机器人混合数据微调,推理时按 CoT 顺序先吐 gaze 再吐 action。真正非平凡的选择是把 gaze 当作跨本体的”共享语义锚点”——人和机器人的手臂形态不同,但”看哪儿”在物理任务里是高度本体无关的,这比 ThinkAct/CoT-VLA 那种用自然语言或 latent plan 作中间步要更接地气,因为 gaze 自带空间监督信号且天然先于动作发生,不像语言 CoT 容易和动作 token 解耦失效。Pupil Neon 真人采数 + 13 个 egocentric 数据集拼出的预训练规模,也算是诚实地把”human video as pretraining”这条路线推到了一个具体可验证的形态。

批判地看,这其实是 LAPA / Ψ0\Psi_0 / GR00T-Dreams 那条”找一个比 action 更便宜的中间表征做预训练”路线的又一变体,只是把 latent action / video / dream 换成了 gaze 这种更窄但更精确的信号——窄的代价就是它只在”视觉-接触型操作”里成立,一旦任务里 gaze 和手部目标解耦(比如双手协同、盲操作、whole-body loco-manipulation 像 AMO/ExBody 那类)这套先验立刻退化为噪声,文章在 ALOHA 和 G1 dexterous 上的设置其实都还停留在 Pi-0/Pi-0.5/RDT2 的桌面操作 comfort zone 里。另一个问题是 gaze 作为 CoT 中间步并没有真正闭环——模型预测的 gaze 是否准确、错了之后 action 是否会被带偏,缺乏像 OpenVLA/RT-2 evaluation 那种大规模分布外压力测试,“human data 去掉就严重过拟合”的 ablation 也只能证明数据量诉求,证明不了 gaze 这一具体形式的不可替代性,换成 hand bbox 或者 contact point 大概率有同样效果。

推荐指数:

EgoLive#

Arxiv ID 2604.23570
幻觉翻译 2604.23570

自研双目头显 JoyEgoCam 采的 1680h 真实场景人类第一视角操作数据集,附带 MANO 手势、立体深度、SLAM 轨迹的全套标注

这篇本质上是一个硬件 + 标注 pipeline 的数据集工作,而非什么 policy。核心做的事情只有一件:自己搞了个 JoyEgoCam 双目头戴(2160×2160@60fps + 200Hz IMU),然后在家政、零售、药店这类真实门店场景里录了 1680 小时、65k 个 episode 的纯人类第一视角操作视频,再用 ORB-SLAM3 双目 + IMU 算 ego pose、用立体优化的 MANO 拟手、用 FoundationStereo 出 1152² 深度、用 SAM2 + Qwen3-VL-32B 出语义和子任务切片。真正比 EgoDex 多出来的东西是双目带来的米级以内毫米级深度和更可信的 3D 手部 keypoint——EgoDex 是单目 + Apple Vision Pro 内部姿态,深度漂移和手腕抖动是已知痛点,这里用立体几何硬刚是合理的工程选择。

但要说”novel”也就到此为止了。和 EgoDex、Xperience-10M、UMI 比,方法论上没有任何新东西:UMI 早就证明 handheld + SLAM 可以直接喂 policy,EgoDex 已经把”人类第一视角→人形/双臂”的桥铺好;本文既没有跑任何下游 manipulation policy,也没有像 GR00T-Dreams / Cosmos-Policy 那样把数据接到生成式世界模型或 retargeting pipeline 上验证可用性,所谓”foundational infrastructure”完全靠声称。最致命的是真实场景的同质化——家政/零售/药房这种结构化货架 + 桌面场景,长尾其实并不比 Ego4D 长,反而因为任务模板化(取放、扫码、整理)极易让任何 Pi-0/Pi-0.5/RDT2 风格的 VLA 过拟合到货架先验上,作者却完全没讨论分布问题。结论:硬件标定扎实,但在 EgoDex / Ψ0\Psi_0 已存在的前提下,没有 policy 闭环之前只是一份更贵的录像带。

推荐指数:

M²-VLA#

Arxiv ID 2604.24182
幻觉翻译 2604.24182

冻结 VLM 主干,靠 Mixture-of-Layers 抽层特征加外挂 Meta-Skill 检索库去补轻量 action head 的容量

这篇的核心立场是不动 VLM 主干、用外部模块去逼近一个能用的 VLA,对应两个零件:MoL 把 VLM 中不同深度的层特征用三条解耦注意力分支(query-semantic 上动态 sigmoid 门控、视觉分支用静态可学因子、再加一条 latent self-attention 去噪)做选择性聚合,避开了 softmax 跨模态尺度不一致;MSM 则维护一个”多层 VLM 特征 → 成功动作序列”的外部 memory,推理时按 L1 距离 top-R 检索再 cross-attention 出参考动作,以残差方式注入到 diffusion-style 去噪头。真正算得上”非套娃”的设计点是:把 frozen VLM 的浅/中/深层显式当成不同抽象级别的检索 key,用检索来对冲冻结主干带来的容量上限,而不是再叠一个大 expert——这一点和 Pi-0/Pi-0.5/GR00T-N1.5 那种”VLM + 大动作 expert 全量训”路线在哲学上是对立的。

但批判地看,这个方法的卖点本质是”冻结 VLM + 拿检索补容量”,整套机制更像 retrieval-augmented BC 的 VLA 化包装,而不是对 manipulation 本身的新理解:MSM 的 key-value 来自训练集成功轨迹,分布外时检索退化为噪声注入,论文也没认真讨论 retrieval 失效或 memory 规模的 scaling 行为,号称的 zero-shot 泛化更多是 VLM 自身保留的语言泛化,而非动作层面的组合泛化,这和 LAPA/UMI/EgoDex 那种从数据侧解决泛化、或 GR00T-Dreams/Cosmos-Policy 用世界模型扩状态分布的思路相比,仍然是被动的。其次三分支 + 残差检索 + 去噪头的栈虽然单项都合理,但相对 OpenVLA/RT-2 的简洁、Pi-0 的 flow matching、ThinkAct/CoT-VLA 的显式推理结构,缺一个能被复用的范式抓手;和 AMO/ExBody 这种把控制结构吃透的工作比,本文更接近”为不解冻 VLM 找一套补丁”,价值上限受限于检索库覆盖度而非建模本身,长期看更像工程 trick 而非新方向。

推荐指数:

Libra-VLA#

Arxiv ID 2604.24921
幻觉翻译 2604.24921

把粗粒度方向 token 与细粒度扩散动作解耦,用 InternVL + DiT 异步双系统在 N=10 的 bin 数上找到所谓"学习平衡点"

方法本质就是又一版 System2/System1 解耦:用 InternVL2.5-2B 作为 Semantic Planner 输出离散的 macro-direction token,再用带独立 SigLIP encoder 的 Diffusion Transformer 作为 Action Refiner 把这些 token 当 condition 去 denoise 连续动作。真正不算复述前作的点只有一处——它把”动作离散粒度 N”明确当成一个超参去扫,并实验性地论证 N 太小(=2)planner 给不出有效指导、N 太大(≥50)planner 退化成动作回归,最佳点在 N=10 附近,作者把这条 inverted-U 命名为 “Libra point”。其余的 hybrid action space、curriculum 从 GT coarse 渐变到 predicted coarse、planner 一次性吐 M 步装进 intent buffer 让 refiner 高频复用,都属于已有套路的工程化组合。

批评点是这篇文章在概念层并没有走出 Pi-0.5 / GR00T-N1.5 / ThinkAct / CoT-VLA 的”高层离散语义 + 低层连续动作”的老框架,所谓 macro-directional token 本质就是 CoT-VLA / LAPA 的 latent action 或 Pi-0.5 的 high-level subtask 的一个均匀离散化变体,把 action 直接按维度等分 bin 这种做法比 LAPA 的 VQ latent、Ψ0\Psi_0 的 keypose 都更粗暴,丢弃了几何结构信息,能在 N=10 work 反而说明任务本身就靠 refiner 在兜底。inverted-U 这个观察其实是任何 hierarchy 方法都会遇到的常识——granularity 太细就退化成端到端,太粗就退化成无条件——把它包装成”learning equilibrium”的命名学价值大于科学价值。真正值得做的消融,比如换成 Pi-0 风格的 flow matching refiner、或者把 InternVL 换成 GR00T-N1.5 同规模 backbone 看 Libra point 是否漂移,论文都没正面回答,因此读完之后并不清楚这条 inverted-U 是方法的性质还是这一对特定 backbone 的性质。

推荐指数:

DiscreteRTC#

Arxiv ID 2604.25050
幻觉翻译 2604.25050

把异步执行重写成离散扩散的原生 inpainting,不再为 RTC 额外微调

这篇的真正创新点不在于”异步执行”这个老生常谈的卖点,而在于它把 Pi-0.5 那一套 Real-Time Chunking 从 flow matching 域硬搬过来需要专门微调和启发式权重调度的窘境,直接消解在离散扩散的 mask token 语义里:把”已经发出去的动作”当作 frozen prefix,把”待生成的后续 chunk”当作仍处于 mask 状态的 token,inpainting 就是 unmask,原生支持、零额外训练。配套的小心思是 early stopping——故意不解完所有 mask,让下一个 chunk 起步时带着部分已确定 token 作为软引导,省掉了连续域 RTC 里 hand-crafted 的 guidance schedule。Backbone 是 Qwen2.5-VL-3B 加一个 LayerWise cross-attention DiT 头,动作走 bin 量化。

批判地看,这工作真正撬动的只有一个点:用离散表示替换连续表示后,Pi-0/Pi-0.5 系 RTC 的工程复杂度坍缩了,剩下的所有叙事(异步、动态环境、think while acting)都只是这个替换顺带兑现的红利,并不是它独立解决的问题。相对 GR00T-N1.5、RDT2 这些坚持 flow matching 的主流 VLA,这篇等于在质疑”连续动作头 + 复杂推理时修补”的范式合理性,方向上比 ThinkAct/CoT-VLA 那种在文本侧加思维链的路线更诚实——不过代价是动作 bin 量化在精细操作(UMI 那种亚厘米级 contact-rich)上的天花板没有正面回答,论文场景仍是抓取-放置级别的 dynamic pick,并未在 LIBERO-Long 或者真正高频全身控制(AMO/ExBody 量级)上验证。换言之,它证明了离散扩散是 RTC 的天然载体,但还没证明离散扩散本身能扛起 VLA 主干,这一步留给后人。

推荐指数:

GS-Playground#

Arxiv ID 2604.25459
幻觉翻译 2604.25459

把 3DGS 渲染与自研并行物理塞进一个引擎,把视觉强化学习的吞吐量怼到 10^4 FPS 级别

这篇本质上不是 policy 论文,而是一个”为视觉 RL 续命”的并行仿真器:核心是把 3D Gaussian Splatting 的批量渲染和一个自研的 velocity-impulse 物理求解器塞到同一个 GPU pipeline 里,让 640×480 分辨率下并行环境的视觉观测吞吐量摸到 10^4 FPS 量级。真正能称作”选择”的地方有两点——其一是 Rigid-Link Gaussian Kinematics,把 Gaussian 基元刚性绑定到物理刚体上,用 GPU 向量化操作同步姿态,避免每步重新光栅化语义资产;其二是物理侧用 constraint islands 切图并行 + warm-starting 把堆叠类接触迭代从 50+ 压到 10 以内。Real2Sim 那一段 SAM + AnySplat + SAM-3D 串起来的流水线是工程缝合,不是这篇的灵魂。

批判地看,这篇的贡献天花板就被”仿真器”这个定位锁死了:它没有回答 3DGS 视觉训出来的策略在真实世界对光照/几何漂移的鲁棒性边界,cone-following 和 90% 抓取那种 demo 跟 UMI、EgoDex 这类真机数据驱动的路子在分布覆盖上根本不在一个量级,也无从对比 Pi-0/Pi-0.5/GR00T-N1.5 在多任务上做出的 representation 收益。和同样卖”视觉世界模型/仿真”的 Cosmos-Policy、GR00T-Dreams 比,后者赌的是生成式 rollout 直接喂 policy,而 GS-Playground 仍然是经典 sim2real 框架,只是把渲染瓶颈搬走了——这意味着场景多样性仍依赖人工 Real2Sim 扫描,长尾接触物理(可形变、流体、布料)也完全没碰。它是个有用的轮子,但不应被读成方法论上的突破,更像是给 ExBody/AMO 这种 locomotion 流派配一把更快的视觉锤子。

推荐指数:

MotuBrain#

Arxiv ID 2604.27792
幻觉翻译 2604.27792

三流 MoT + UniDiffuser,把视频与动作放进同一个扩散框架做联合速度场预测

方法本质是把 UniDiffuser 那套”多模态联合扩散”硬塞进机器人控制——视频隐变量和动作 token 各起一路扩散流,文本只作为条件不参与生成,组成所谓三流 Mixture-of-Transformers。真正能称为选择的只有两点:一是 H-bridge 注意力,仅在中间 50% 层做视频-动作 joint attention,上下两端解耦,本质上是承认底层和顶层跨模态对齐没收益、只在中段做语义耦合以省算力;二是视频与动作各自独立 SNR/timeshift 调度(视频 6、动作 1),承认两者的噪声尺度本就不该共享。多视角用 view-dependent 3D RoPE offset 做相对编码、跨本体用相对末端坐标统一动作空间,再叠 V2A 式非对称推理让部署时可以只跑动作流,FP8、DiT cache 拉到 11 Hz——工程量很足。

批判地看,这篇的”world-action 统一”听起来比实际深,因为它本质上仍是 GR00T-Dreams、Cosmos-Policy、Ψ0\Psi_0 那一条”用世界模型给 policy 当 regularizer”的支路,只是用 UniDiffuser 让你能在 inference 时挑模式而已,并没有像 ThinkAct / CoT-VLA 那样让世界预测真的参与决策推理,也没有 RDT2 / Pi-0.5 在分层抽象上的尝试。H-bridge 这种”中段才跨模态”的设计很可能是被联合训练发散逼出来的工程妥协而不是结构洞察,独立文本流相比 Pi-0、OpenVLA 直接用 VLM 主干,反而丢掉了大规模视觉语言先验,跨本体只靠 50-100 条轨迹 finetune 也明显弱于 GR00T-N1.5 / AMO / ExBody 的真·跨本体训练范式;评测大量绑死在 RoboTwin 2.0 与自家 WorldArena 上,相对 LIBERO / EgoDex / UMI / LAPA 这类被更广泛认可的设定,外部可比性偏弱。

推荐指数:

LaST-R1#

Arxiv ID 2604.28192
幻觉翻译 2604.28192

把 DINOv3 的 CLS 当作 latent CoT 监督目标,再用 PPO 同时对 latent 和 action 做 ratio clipping,并学一个自适应的 <latent_end> 出口

方法的核心其实只有两件事:第一,不再让 latent reasoning token 漂在空中自己学,而是把 DINOv3 的 CLS 离线抽出来、按通道幅值 top-k 到 2560 维,直接当作 latent 序列的回归目标,等于把”视觉基础模型的语义”硬编码为思维链的 supervision;第二,把这些 latent token 也纳入 PPO 的 ratio 里,用各向同性高斯近似得到一个 latent 的 importance ratio,与 action ratio 一起做 clipped surrogate,advantage 为正时就显式地把 latent 拉向 rollout 时表现好的那条流形。真正算得上新意的是 adaptive <latent_end>:只允许在 2/4/6/8 这四个位置出口,用 pre-softmax logit 加温度做分类分布,再单独给出口 token 一个 PPO loss 项,这才让”思考多久”变成可被稀疏奖励反向塑形的离散决策,而不是 CoT-VLA / LAPA 那种固定长度的隐式 token。

但是退一步看,这套东西的”reasoning”含金量是值得怀疑的:DINOv3 CLS 本质上是一张图的全局语义指纹,把它当 latent CoT 的 target,模型学到的其实是”在动作之前先复述一遍我看到了什么”,跟 ThinkAct 强调的子目标分解、CoT-VLA 的未来帧预测、或 GR00T-Dreams 用视频世界模型作 latent 监督相比,这个 target 既不前瞻也不结构化,所谓 chain-of-thought 更像是 chain-of-perception;自适应长度的搜索空间又被钉死在 4 个离散点,离 Pi-0.5 那种连续推理控制差得远。更关键的限制在于 latent ratio 用各向同性高斯近似 KL,这在 VLA 的高维 embedding 上方差假设极度可疑,advantage 一旦噪声大就会把 latent 拖向虚假流形;再加上奖励只是 LIBERO 式 success/failure,跟 AMO/ExBody 那种 dense whole-body 奖励或 UMI/RDT2 真机演示量级的数据驱动相比,这套 RL 在真实长程任务上的可扩展性几乎没被验证。

推荐指数:

Being-H0.7#

Arxiv ID 2605.00078
幻觉翻译 2605.00078

用 prior / posterior 双支隐 query 把未来信息蒸进策略内部推理,绕开像素级世界模型 rollout

方法本质是把”世界模型”这件事从像素空间塞回到 token 空间:在感知与动作 token 之间插入 K=16 个 learnable latent queries 作为显式推理槽,训练期用一个 posterior 分支把未来帧经冻结 ViT + Perceiver 抽成 embedding 直接替换掉这些 query,然后在 L=9 层 Transformer 隐状态上用 Frobenius 对齐拉 prior 去拟合 posterior,推理时只跑 prior。真正有信息量的设计是这条对齐路径,而不是又一套 flow-matching action head——它意味着不需要像 GR00T-Dreams 或 Cosmos-Policy 那样先训一个会做梦的视频生成器再蒸馏,也不需要 CoT-VLA 那种自回归预测未来帧的 test-time rollout 开销,等于把未来信息当作隐式正则项灌进策略。配套的 norm preservation 和 spectral entropy 两条正则是给这个隐空间防塌缩兜底的,属于不得不加但思路上没什么新东西。

批判地看,这套东西最大的问题是它在解一个被 Pi-0.5 / GR00T-N1.5 那条”扩大异构数据 + 简单 flow matching”路线半绕开的问题:posterior 分支假设未来帧 embedding 是个有用的监督信号,但 ViT + Perceiver 抽出来的 future feature 在多大程度上真带了”任务相关的可预测结构”而不是相机抖动 / 物体外观,论文没给出隐空间探针证据,LIBERO 这种短程任务上几乎对所有正经 VLA 都饱和、没法证明 future-awareness 真的起作用,只有 motion-centric 任务上的增益勉强支撑论点。和 ThinkAct / CoT-VLA 那种显式语言/视觉链式推理相比,这里的”推理”完全黑箱,既不可解释也不可被 LAPA 或 Ψ0\Psi_0 那样的 latent action 词表复用;和 UMI / EgoDex 那种从 egocentric 视频里抽 hand-action 先验的做法相比,它其实没真正用到 egocentric 视频的结构信息——标题里的 “from Egocentric Videos” 在方法上几乎是装饰,真正的训练信号还是 teleop 轨迹加未来帧 embedding。换句话说,它是个不错的”轻量隐式世界模型蒸馏 trick”,但离一个能替代 RDT2 / Pi-0.5 级 scaling 路线的 world-action model 还差一层论证。

推荐指数:

Lucid-XR#

Arxiv ID 2605.00244
幻觉翻译 2605.00244

把 MuJoCo 编到 WebAssembly 塞进 XR 头显里做零延迟遥操 + 语义掩码图像增广的合成数据引擎

这篇本质是一个”在头显里跑物理”的数据引擎,而不是又一个 VLA。真正非平凡的选择只有一个:把 MuJoCo 编译成 WebAssembly 直接跑在 Vision Pro 上,借此干掉云端物理仿真在 VR 遥操中那段要命的网络往返延迟,从而让可形变体、流体、SDF 非凸碰撞这些”动态接触”任务第一次能在 XR 里被人手实时操控并采集。retargeting 部分把 mocap site 绑在指尖、用相对腕关节位姿驱动机器人,再加一个 “hitchhiking” 凝视触发夹爪的小 trick,解决远处机器人手部信号放大的问题;图像层走的是 LucidSim 老路——语义 mask + 深度条件灌进扩散模型,再用光流做近邻视角增广,把 30 分钟真实演示放大约 5 倍喂给 ACT / Diffusion Policy。

问题也很直接:所谓”零样本迁移”是迁到扫描出的数字孪生场景,而不是真正的新物体、新构型,scan-to-real 的视觉鸿沟基本被生成模型 paper over 掉了;策略端就是开箱的 ACT 和 DP,对动作分布、长程推理没有任何新东西,所以方法的天花板完全由数据多样性决定。和同类对比就更尴尬:UMI 用手持夹爪直接拿到真实接触的本体感受,EgoDex / Ψ0\Psi_0 走互联网人类视频规模化,RDT2 / Cosmos-Policy / GR00T-Dreams 直接用大视频生成模型当世界模型 rollout,而 Lucid-XR 仍要求人戴着头显一段段演示——它的”on-device 物理”是工程胜利,但相对 Pi-0.5、GR00T-N1.5 这类已经在啃跨本体泛化的工作来说,停留在”更顺手的单臂遥操数据厂”这一层,叙事重心和当下 EAI 的痛点是错位的。

推荐指数:

LearningWhileDeploying#

Arxiv ID 2605.00416
幻觉翻译 2605.00416

把 Pi-0.5 接上分布式 IQL 与 Adjoint Matching 做 fleet-scale 在线 RL post-training

这篇本质是给 Pi-0.5 这类 flow-matching VLA 补上一个能跑在 16 台机器人 fleet 上的离/在线统一 RL 后训练管道,方法骨架就两件事:用 categorical 分布拟合 state-conditional 的 dataset action-value(DIVL),再用 quantile bootstrap 替代 IQL 里那个手调的 expectile,配上 entropy 决定的自适应 τ,让稀有高回报模式不被标量 critic 平均掉;策略侧不再硬怼 flow 多步去噪反传,而是把 critic 的梯度作为 terminal adjoint condition 沿参考 flow 轨迹做 step-wise 回归(QAM),从而把 Q 信号灌进 flow-matching 而代价仍是局部回归。真正”非缝合”的点其实只有 Proposition 1 给的 distributional fit + quantile = asymmetric scalar regression 这个等价性,它把 IQL 的 expectile trick 推广到了分布版本,是这套 system 唯一有点理论密度的地方;其余 fleet flywheel、replay 混合、每 50 步重部署都是工程而非新观念。

批评地说,这篇相对 Pi-0.5 的增量更像是”把 Pi-0.5 拿去做 fleet IQL + flow-RL”,而不是新的 policy class——AMO、ExBody、UMI 这一脉根本不在同一战场,而 GR00T-N1.5 / RDT2 / OpenVLA 走的是更大 BC + 离线 scale 的路,作者其实是在赌 BC 撞墙后 fleet RL 是唯一出口,但全文没回答 fleet 数据要多脏、人类 intervention 占多少才能撬动改进,DIVL 的分布拟合也只在长程稀疏奖励任务上才显出对 expectile 的优势,短任务基本被 BC 吃掉。更要命的是和 ThinkAct / CoT-VLA / GR00T-Dreams 这种把推理或世界模型放进 loop 的路线相比,LWD 仍是无 reasoning、无 dreaming 的纯 value-based 后训练,长程能力的提升来自更大 n-step TD 而不是结构性的时间抽象;一旦任务超出 8 个预设 manipulation skill,fleet 收的数据分布迅速塌缩到 in-distribution 自我强化,看不出比 LAPA / EgoDex 这种靠 ego 数据扩 prior 的方案在 OOD 上更有救。

推荐指数:

VLA-ATTC#

Arxiv ID 2605.01194
幻觉翻译 2605.01194

给 VLA 套一个不确定性触发的 RAC 相对评分器,用 tournament 在测试时挑动作

方法本质是把 test-time compute 这套”采样-评分-挑选”的范式塞进 flow-matching VLA:先用同一 VLM context、不同噪声采两条 action chunk,用 DTW 对齐代价当不确定性,超过分位阈值才进入 deliberation,否则直接执行第一条,这就是所谓的 cognitive clutch。真正不太一样的选择有两个:一是 critic 不学绝对 Q/价值,而是学 pairwise 偏好,配合单淘汰 tournament 把 N 个候选选出来一个,回避了 absolute scoring 在 VLA 动作空间里 calibration 极差的老毛病;二是偏好对完全自动构造,利用 flow-matching 对 ODE 步数敏感的性质,把多步积分当 high-quality、少步积分当 low-quality,加上 expert 凑成 ⟨expert, low⟩ 和 ⟨high, low⟩ 两类对,省掉了 reward model / 人工标注那套。RAC 本身是个轻量 Transformer,吃两个候选动作、差值和 proprio,通过 self-attn、raw cross-attn 到 VLM 中间层、query cross-attn 到可学 query token 三路 gate 融合。

批评的话,这篇本质上是给 Pi-0/Pi-0.5 这类 flow-matching policy 外挂的一层 reranker,并没有真的改 VLA 的推理或表征结构,和 ThinkAct、CoT-VLA、Ψ0\Psi_0 那种把 reasoning 注入到 token 流里的路线相比,仍然是 System-1 fast policy 加一个外置 verifier,“deliberation” 这个叙事偏包装。更要命的是它的 preference 信号来自 ODE 步数差,这只能反映 flow 解的精度而不是动作在物理世界里的好坏——expert 的少步采样未必比 high-quality 的少步采样差,pairwise label 其实在学一个 ODE 收敛性的 proxy,离 GR00T-Dreams、Cosmos-Policy、UMI 这种用真实/世界模型 rollout 来打分的路线差一截。再者 DTW-on-two-rollouts 的不确定性度量、tournament 的 O(N) 比较,都会在长 horizon、高频控制下放大延迟,LIBERO-LONG 这种短桌面任务能 work 不代表能上 AMO/ExBody 那种 whole-body 场景;EgoDex、RDT2 级别的数据多样性下,自动 preference pair 的噪声只会更糟。

推荐指数:

LatentBridge#

Arxiv ID 2605.02739
幻觉翻译 2605.02739

用轻量 DiT 桥接器在时间维度上预测 VLM 特征 / KV-cache 的增量,把双系统 VLA 的大模型调用稀疏化

方法本质就是把双系统 VLA 的 System 2 当成一个慢变量:训练一个轻量 DiT bridge,以 state、上一步 action 和当前视觉为条件,自回归地预测 VLM 特征的 delta zt+1=zt+Δtz^{t+1}=z^t+\Delta t,让 action head 每步都能拿到”准实时”的 latent,而真正的 VLM 只需要周期性调用刷新基准。真正算得上 novel choice 的有两点:一是同时给出 feature-space(GR00T-N1.6)和 KV-cache(π0.5 逐层 18 头)两套实例化,证明这一抽象不依赖具体 VLA 拓扑;二是显式建模 sync 训练与 autoregressive 推理之间的分布漂移,用 DAgger 让 oracle VLM 在 bridge 自己产生的”漂移轨迹”上给监督,而不是天真地在 ground-truth pair 上 MSE。zero-init 输出投影使未训练的 bridge 退化为 feature caching,也是个工程上很干净的设计。

但抛开包装,这本质上是一篇 inference 加速论文,不是 policy paper:它没有改变 Pi-0/Pi-0.5/GR00T-N1.5 的能力边界,只是在已经训好的模型上做时间冗余压缩,和 ThinkAct/CoT-VLA/LAPA 这类要重塑表征或推理链的工作不在同一层面,也谈不上像 AMO/ExBody 那样触及控制本质。更要命的是它的可用前提非常窄——bridge 只对 image token 建模、显式假设”指令在 episode 内近似不变”,一旦任务涉及长程语言重规划(像 Pi-0.5 强调的开放世界泛化或 GR00T-Dreams 那种以语言驱动的想象)就直接退化;同时 DAgger 阶段需要一个在线 oracle VLM 在仿真里陪跑,这把它对真实数据/真机部署的友好度打回到和 RDT2、Cosmos-Policy 类似的”先有强 sim 才有 bridge”的区间。再加上 delta 预测器本质是一个被自身误差累积的 latent 动力学模型,论文没有给出 horizon 增长下的发散分析,只在 LIBERO/RoboCasa/ALOHA 这些短程基准上验证,放到 UMI、EgoDex、Ψ0\Psi_0 那种长程、多模态、强分布外的场景里,周期外推还能不能稳住是没被回答的核心问题。

推荐指数:

MolmoAct2#

Arxiv ID 2605.02881
幻觉翻译 2605.02881

把 Molmo2-ER 当主干、用 per-layer KV-cache 把 flow-matching action expert 挂上去,再加一个只对变动区域重出 depth token 的自适应推理变体

方法本质就是把 Pi-0 那套”VLM 主干 + flow matching action expert”再做一遍开源版,但有两个真的算选择的点:一是放弃了主干输出 hidden state 直接喂 expert 的常规接法,改成把每一层 self-attention 的 KV 投影后让 DiT expert 做 cross-attention,并且明确切断梯度回传,相当于把 Pi-0.5 的 knowledge insulation 做成了结构而不是 loss trick;二是 MolmoAct-Think 的 adaptive depth——把图像切 10×10 patch,用 cosine 相似度判定哪些格子变化超过阈值,只对这些格子重新自回归 depth token,其余从上一帧 cache 复用。这其实是把 CoT-VLA / ThinkAct 那种”先想后动”的 latency 问题用最暴力的时间冗余裁剪给糊过去了,配合自家 OpenFAST tokenizer 和 3.3M 的 specialize-then-rehearse 数据形成完整开源栈。

批判地看,KV-cache conditioning 在工程意义上确实比 hidden state 接法干净,但相对 Pi-0.5 / GR00T-N1.5 在”VLM 怎么喂 action expert”上没有概念级跃迁,更像换一种实现路径;真正的 differentiator 是 720h 双臂遥操数据和全套开源 tokenizer,而不是建模思想。adaptive depth 的核心假设——场景大部分时间静止——在桌面双臂任务里几乎必然成立,所以省下来的 latency 是结构性免费午餐而非算法洞见,一旦放到 AMO / ExBody 这类全身高速场景就会塌掉;阈值 0.996 + 10×10 网格也暴露了这套机制对相机抖动和光照漂移会非常脆。整体属于”把已有 recipe 完整开源 + 一个针对 latency 的实用 hack”的工作,价值在生态而不在方法。

推荐指数:

RLDX-1#

Arxiv ID 2605.03269
幻觉翻译 2605.03269

把 MM-DiT 三流(认知 / 动作 / 物理)塞进 VLA,再补一堆视频合成与工程优化,典型大杂烩堆栈式 technical report

方法本质是把 MM-DiT 的多流思路从图文生成搬到 VLA:在 Pi-0 / GR00T-N1.5 那种 VLM + Action Expert 的双塔之外,再加一条 Physics 流去吞触觉与力矩,前段三流各自做 norm + QKV、再在 joint self-attention 里拼接共享,后段塌缩成单流。真正比 Pi-0.5、GR00T-N1.5 多走半步的只有两点:一是显式的 long-term memory cache 把过去的 cognition feature 留住,而不是依赖 VLM 每步重看;二是 Physics 流被训成预测未来 tactile/torque 信号,相当于把 ExBody/AMO 里那种”未来状态当辅助监督”的套路搬进 dexterous manipulation。其余如 space-time self-similarity、V-JEPA2 attentive probe 当 motion-consistency filter、FLUX.2 做 I2I → I2V → V2V 合成、再用 IDM 反标 action,基本是 GR00T-Dreams、Cosmos-Policy、LAPA、UMI 这条数据扩增链上的拼装件。

批评在于这是一份典型的”什么都加一点”的 technical report,而不是带本质洞见的工作。三流注意力在论文里没有干净的消融能说服人 Physics 流不是又一个被 VLM 主导吃掉梯度的旁支——参考 RDT2 和 Pi-0.5 早就观察到 proprio/触觉在 joint attention 里很容易退化;text-critic 的 RECAP-style RL 也更像 ThinkAct/CoT-VLA 的”让 VLM 当裁判”的换皮,既没有 Ψ0\Psi_0 那种 world model rollout 的物理性,也没解决 reward hacking。合成数据链则继承了 GR00T-Dreams 的老问题,IDM 反标 + V-JEPA2 过滤本质是用一个不可靠模型筛另一个不可靠模型,LIBERO/EgoDex 级别的分布外泛化是否真受益缺乏对照。再加上 CUDA Graph + 融合 kernel 这种和方法学无关的工程提速被并列成”贡献”,整篇读下来更像 OpenVLA → RT-2 这条线的工业化复刻,而非提出新的 inductive bias。

推荐指数:

RoboAlign-R1#

Arxiv ID 2605.03821
幻觉翻译 2605.03821

给机器人视频世界模型蒸馏一个多维奖励判官,再用 GRPO 做后训练对齐指令与物理合理性

本文的核心是给”机器人视频世界模型”补一层 RLHF 风味的对齐:先用 Qwen-VL-8B 在自建的 RobotWorldBench 上做 SFT 训出一个六维(指令跟随、操作成功、动作-结果一致、时序一致、接触真实、物理合理)的 Judge,再把它蒸馏成 98M 的轻量 reward model,然后用 GRPO 把一个 FSQ-VAE + 138M LLaMA 的自回归视频世界模型 fine-tune 一遍。真正有点意思的设计是两处:一是 online iterative distillation,每 K 步用新 rollouts 重新喂学生模型,显式对抗 RL 后期 reward hacking 引起的分布漂移,这比一般 RLHF pipeline 只蒸一次要诚实;二是 Sliding Window Re-encoding,在推理时把预测帧解码回像素再重新 encode 成 context token,直接切断自回归 token 误差链,从根上压住 long-horizon drift,而不是再叠一个 diffusion refiner。

但去掉包装看,本文做的事在 Cosmos-Policy、GR00T-Dreams、Ψ0\Psi_0 之后并不新——世界模型该不该被指令和物理”对齐”早就是默认前提,而六维 rubric 本质上是把 VLM-as-Judge 那一套从图像生成搬到机器人视频,维度划分主观且彼此高度相关(操作成功几乎蕴含动作-结果一致与接触真实),Huber 回归到 [0,1]^6 之后又加权求和,等同于训了一个噪声更大的 scalar reward,比直接学 success/fail 的判别器优势存疑。骨干只有 138M、8 帧 256×320,这个规模下 SWR 看着漂亮,但一旦放到 Pi-0.5、GR00T-N1.5 那种真正要驱动 policy 的视觉规模,decode-reencode 的 tokenizer 信息损失会立刻成为新的误差源;而且整篇没回答最关键的问题——这个被对齐过的世界模型,作为 OpenVLA / RT-2 / RDT2 这类下游 policy 的 dreamer 或 evaluator 时是否真的带来 LIBERO / EgoDex 上的策略增益,只停留在自家六维分数上自证,做成了一个”对齐视频生成”而非”对齐世界模型”的工作。

推荐指数:

VLA-GSE#

Arxiv ID 2605.06175
幻觉翻译 2605.06175

把冻结 VLA 主干的 SVD 谱拆成共享专家与路由专家,做 PEFT 微调

方法的本质是:在 OpenVLA 这类已经预训练好的 VLA 上做 LoRA 替代品。作者把冻结主干权重做 SVD,前若干奇异分量(主能量方向)固化成一个”始终激活的通才专家”,剩下的残差分量被切成若干份分别塞进路由专家里,再叠一个 expert-wise 梯度尺度均衡和一个权重期望补偿项防止训练失衡。真正算得上有点意思的设计只有一个,就是”用谱分解本身去定义专家的初始化分工”——通才接预训练里高奇异值方向的通用语义,专才只负责在正交残差子空间里学机器人适配,从而结构性地缓解灾难遗忘。其余的 MoE、门控、辅助 loss 都是标准缝合件。

批判地看,这是一篇典型的”PEFT 改良 + LIBERO 报点”工作,和 Pi-0、Pi-0.5、GR00T-N1.5、Ψ0\Psi_0 这些真正在 scaling data 和 action expert 架构上做事的工作不在一个层面,更别提 ThinkAct、CoT-VLA、LAPA 那种至少在表征或推理范式上做了选择的路线。它本质上回答的问题是”如何更省参数地把 OpenVLA 调到 LIBERO 上”,而不是”VLA 该怎么学”,这种基于 SVD 的子空间分工在 LLM PEFT 文献里早被反复做过,机器人这边只是换了下游数据集。最大的局限是评测面:只在 LIBERO-Plus 和少量真机任务上验证,没有触及长程、跨本体、灵巧操作或与 UMI/EgoDex 这类数据源的耦合,因此所谓”保留多模态能力”更像是 LIBERO 这种弱分布偏移设定下的副作用,无法证明在 Pi-0 量级数据预训练或者 GR00T-Dreams/Cosmos-Policy 那种世界模型驱动场景里仍然成立。

推荐指数:

CKT-WAM#

Arxiv ID 2605.06247
幻觉翻译 2605.06247

把 teacher WAM 中间层 hidden state 压成几十个 token 塞进 student 的文本 embedding,做参数高效的跨 WAM 知识迁移

这篇的核心其实就一句话:在两个异构 World-Action Model 之间做知识迁移时,既不去对齐 dense hidden state(像传统蒸馏那样按层 match),也不强迫 student 模仿 teacher 的 action 输出,而是从 teacher 的中间层(ℓ*=20)抽出 hidden,用 learnable-query cross-attention 压成固定长度的 context token,再把这串 token 当作”附加的语言指令”拼到 student 的 text embedding 后面。中间那套 generalized adapter + top-k routed specialized adapters(M=8, k=2)+ load-balancing 的 MoE 结构是从 PEFT/MoE 那边搬过来的常规做法,真正有点意思的设计点是把”知识迁移”显式塞回文本通道这件事——student 的 cross-attn 本来就是用来处理 instruction 的,所以借助 RoPE 的位置不变性,这串 context 几乎是零侵入地接入,backbone 全冻,只训 1.17% 参数。

但越想越觉得这是一个被包装得很重的 prompt-tuning。所谓 “Context Knowledge Transfer”,剥掉 WAM 的外壳之后就是:从一个冻结大模型抽 feature,过一个小 adapter,当 soft prompt 喂给另一个冻结大模型,LIBERO-Plus 这种短程基准上自然能逼近 full FT。它和 Pi-0 / Pi-0.5 / GR00T-N1.5 这种从底层就把 VLM 与 action expert 联合训练的范式不在一个层级,也无法像 LAPA / UMI / EgoDex 那样从数据侧给 VLA 带来新的物理先验;相对 CoT-VLA / ThinkAct 在文本通道里塞的是显式推理链,这里塞的是不可解释的 latent,debug 与组合性都更差。更要命的是它绑死了一个特定 teacher checkpoint——teacher 一旦换代(比如 Pi-0 → Pi-0.5,或 GR00T-Dreams 这种引入 world model 先验的新一代),抽取层 ℓ*、LQCA query 数、router 专家划分大概率都要重调,所谓”参数高效”只是相对单次训练而言,跨版本的迁移成本被悄悄藏到了超参里;长程 83.3% 也只来自四个自设任务,没有和 AMO / ExBody 这类真正考验时序闭环的 setup 正面对比,说服力相当有限。

推荐指数:

AT-VLA#

Arxiv ID 2605.07308
幻觉翻译 2605.07308

在 GO-1 之上加一个触觉门控的快慢双流,让 VLA 在接触瞬间用触觉 token 替换 state token 做 cross-attention query

方法本质就是在 GO-1(InternVL-2B + DiT action expert)上挂一个触觉旁路,真正有意思的不是”加触觉”这件事本身,而是注入位置的选择:作者没把 6D 力信号当成又一组 token 拼到序列里(那是 Pi-0/Pi-0.5/RDT2 加新模态的默认做法),而是只动 action expert 的 cross-attention 的 query 来源——平时 query 是 state token,触觉门控判定接触瞬间触发后,query 被换成触觉 token,KV 仍是慢流 VLM 给出的视觉-语言 latent。这等于把触觉定位成”在已有视觉-语言条件下重新询问该输出什么动作”的调制信号,而不是又一个被平均掉的输入模态。配合一个 BCE 训出来的二分类 Gate(需要人工逐帧标 contact/non-contact),非接触阶段模型行为与原 VLA 完全相同,从而回避了引入新模态后常见的预训练能力坍缩问题;快慢比例在训练时从 1:1 到 H:1 随机采样,推理时快流以 3:1 跑出 0.04s 的闭环。

批判地看,这是一篇”接口设计”论文而不是”能力”论文:贡献完全建立在 GO-1 已经能做这类操作上,AT-VLA 只是给它接了一个高频反应通路,和 AMO/ExBody 那种把 RL 残差挂到上层策略上的思路同构,只不过把残差换成了触觉门控的 query 替换。两个真实限制:其一,Gate 依赖人工逐帧 contact 标注,这在 EgoDex/UMI 这种大规模采集流程里几乎不可扩展,也无法像 LAPA/GR00T-Dreams 那样从无标注数据里学出来;其二,query 替换是硬切换(gate 激活就整段换掉 state query),意味着接触相位被压成单一二值事件,对滑动、揉捏、多指接力这种连续接触语义其实建模不了,远不如 Ψ0\Psi_0 或 ThinkAct/CoT-VLA 那样把中间状态显式展开。和 Pi-0.5、GR00T-N1.5 这种把多模态统一进 backbone 表征的方向相比,AT-VLA 更像是给定 frozen VLA 之后的工程补丁,思想上的天花板就锁死在”门控+替换”这一层。

推荐指数:

RePO-VLA#

Arxiv ID 2605.09410
幻觉翻译 2605.09410

把"成功 / 恢复 / 失败"三类轨迹分开训,再用进度-语义价值函数在测试期把动作向成功流形偏置

RePO-VLA 押在一个被主流 BC 框架长期忽略的事实:人类示教里的”中途失败 → 自救”片段对策略学纠错最有用,但常规 SFT 把它们要么扔掉、要么和成功段无差别混合,结果策略学到一堆”从干净 state 出发”的动作分布,一进入扰动就崩。具体三件套:Recovery-Aware Initialization 把恢复轨迹切段并 reset history token,让纠错动作只对当前 adverse state 负责而不背负此前失败前缀;Progress-Aware Semantic Value Function 把整段轨迹对齐到指令和成功参考上,给每一帧一个可用度衰减分数,区分”还能救”的失败前缀和”已经崩溃”的尾段;Value-Conditioned Refinement 在训练里学一个把动作向高进度方向偏置的条件分布,部署时直接钉死 v=1.0 把策略偏到成功流形,免去 online failure detector。配套 FRBench 标准化注入误差再测恢复,bimanual 真机扰动下平均 20% → 75%。

价值在于第一次把”恢复”作为 first-class 学习目标而不是当噪声处理,思路上和 VLA-OPD(on-policy distillation 替 reward)、VAMPO(GRPO 把 video model 修向精确)是同一波”LLM 后训那套搬过来”潮流里相对干净的一支——不需要 reward shaping,不需要 expert teacher,只要轨迹分类标签和一个 value head。但这套设计的 fragility 全压在 PAS-VF 的可靠度衰减估计上:reliability decay 怎么标、是不是任务相关、跨任务能不能 transfer,论文没回答;以及 RAI 的 history reset 在长程任务里会切掉本来对决策有用的上下文,这一笔账 LIBERO 短程任务测不出来。20→75 这个数字也建立在”先人工注入失败”的合成 adverse state 上,真机自然 OOD 分布下能不能保住差距是真实考验。和 Heracles 那种 diffusion-as-recovery 的取舍对照——一个押 representation 层(value head 偏置),一个押 control 层(diffusion 兜底),都是在解 BC 失败回弹问题,但本文这条路有更明确的训练目标可优化。

推荐指数:

ALAM#

Arxiv ID 2605.10819
幻觉翻译 2605.10819

给 latent action 强加组合 / 可逆代数约束,再用 flow matching 让 latent transition 和动作联合生成

LAPA 这条”从无 action 视频学 latent action”路线的最大未解问题一直是:reconstruction loss 训出来的 latent code 在动作组合下没结构,连续两步 latent 直接相加得到的并不是”两步合并的 latent”,反向也对不上。ALAM 的核心一刀就切在这里——直接对 latent transition 加 composition consistency(z(s→s’)+z(s’→s”)≈z(s→s”))和 reversal consistency(z(s→s’)+z(s’→s)≈0)两条代数约束,把 latent transition space 强行规整成局部加性。然后下游策略关键设计:不是常见的”latent → decode 成 action”那条 LAPA 老路,而是用 joint flow matching 同时生成 latent transition 和机器人 action,让两个分布在 denoising 过程里互为条件。代数误差报降 25-85 倍,MetaWorld MT50 47.9→85,LIBERO 94.1→98.1。

意义在于 LAPA / UMI / GR00T-LAPA 这一卷把无标注视频当预训练数据的工作都默认 latent 是”够用就好”的中间产物,ALAM 是第一篇把 latent 的代数结构本身当一等公民来训的。和 EAI11 之前的 ST-VLA(中间表示往 4D 升)、VP-VLA(中间表示往 2D overlay 退)是同一类”重做 hierarchical VLA 的中间接口”问题,但走的是表示学习而不是几何工程的路线。代数约束 + joint flow matching 这个组合相对干净,但有两个真实问题:composition / reversal consistency 本质是局部线性假设,video transition 在长程或者非平稳动力学下不再线性,论文没量化超出多少步约束就崩;以及”latent 和 action 联合 denoising”让推理成本翻倍,没看到和 Fast-dVLA 那种加速工作的耦合讨论。47.9→85 这个跳幅看着惊人,但 MetaWorld 的离散任务里 reconstruction 基线长期就是公认偏低的下限,更有说服力的是 LIBERO 94→98 那一档高基线上的小幅推动。

推荐指数:

RoboMemArena / PrediMem#

Arxiv ID 2605.10921
幻觉翻译 2605.10921

1000+ 步长程任务里 68.9% subtask 依赖记忆的 benchmark,配套 keyframe + recent buffer 的双系统 VLA

RoboMemArena 把社区一个长期被绕开的问题摆上台面:LIBERO / RoboTwin / RoboCasa 这一档 benchmark 平均 episode 长度都在百步级,VLA 的”context 记忆”压根没被考过,超过几十帧后所有方法都靠 implicit context 含混过去。这个 benchmark 26 任务平均 1000+ 步,68.9% subtask 显式标注为 memory-dependent(即必须依赖更早的观察或子任务结果才能决策),还配多模态记忆形成标注 + 真机评测。配套提的 PrediMem 是 dual-system VLA:高层 VLM planner 维护一个记忆库——recent buffer 存近期帧、keyframe buffer 存检测到的 task 转折点,再加一个 predictive coding head 让模型对 task dynamics 的变化更敏感(用于决定何时往 keyframe buffer 写入新的 keyframe)。

价值不在 PrediMem 本身——keyframe + recent 这种双 buffer 是 long-context LLM 那边玩了好几年的标准配方——而在把”长程任务里 VLA 没有真正的记忆机制”这件事变成可量化的 benchmark gap。和 EAI11 里 ManipArena(真机 long-horizon mobile manipulation)是互补关系:一个测真机扰动 + real-to-sim,一个测显式 memory 依赖。批评在 memory-dependent 这 68.9% 是怎么 annotate 的论文说得不够具体,“必须依赖更早观察”这件事其实和”模型能不能从当前帧 + 短期 context 推出来”很难严格区分;以及 PrediMem 的 keyframe 选择如果靠 predictive coding head 的 surprise 信号,这个信号在 contact-rich 阶段会持续高激活,buffer 写入策略很容易在长程任务里被噪声占满。作为”VLA 该不该有显式记忆”的开题工作合格,作为方法工作 PrediMem 不出彩。

推荐指数:

HarmoWAM#

Arxiv ID 2605.10942
幻觉翻译 2605.10942

Process-Adaptive Gating 在"想象-执行"和"联合建模"两类 WAM 之间动态切换的混合架构

HarmoWAM 押的是 World Action Model 这条路里两类范式各自有 ceiling 这件事:Imagine-then-Execute(先预测未来视觉再 decode 出 action)泛化好但精度差,Joint Modeling(视觉和 action 联合建模)精度高但被训练分布卡死。它的 Process-Adaptive Gating 让一个 predictive expert(吃 latent dynamics 做迭代生成)和一个 reactive expert(从预测的视觉演化直接出 action)共存,门控自动决定”何时何地”在两者之间切换——熟悉的局部区段走 reactive 拿精度,进入未见过的子任务段切到 predictive 让 world model 帮着外推。报跨三个 unseen 测试场景比 VLA 高 33%、比 WAM 高 29%。

定位上是 EAI11 里 World Action Model vs VLA Robustness Study 那篇 controlled study 给出的结论”WAM 更鲁棒、VLA 更准”的直接 follow-up——既然两类各有强项,那就 hybrid。和 Cosmos-Policy、LingBot-VA、RDT2 这条 video-as-prior 路线对照,HarmoWAM 的取舍是不再赌单一范式,而是把 trade-off 显式参数化为门控。但这套思路有两个 fragility 点:门控本身需要在线判断”当前状态是 in-distribution 还是 OOD”,这件事在没有 explicit uncertainty 估计的情况下学起来很脆——VLA-OPD / Heracles 都遇到过类似 OOD detection 问题;以及”33% / 29%“这种数字必须看 baseline——如果只对一两个固定的 VLA / WAM baseline,HarmoWAM 的 hybrid 优势可能更多来自集成效应而非门控本身。需要的关键消融是”两 expert 一直一起跑然后均值融合”这条简单 baseline——如果差距没那么大,那门控就不是关键设计。

推荐指数:

PriorVLA#

Arxiv ID 2605.10925
幻觉翻译 2605.10925

冻结预训 VLA 当 read-only Prior Expert + 可训 Adaptation Expert + Expert Query 桥接的 PEFT

PriorVLA 是 VLA-GSE、CKT-WAM 那波 PEFT 工作的下一代变体,但它的角度比前两者锐:不是去找 LoRA-friendly 子空间(VLA-GSE 的 SVD),也不是把 teacher 中间层压成 soft prompt(CKT-WAM 的 LQCA),而是显式建模”预训知识”和”任务适配”是两条独立通路。架构上是 frozen Prior Expert(预训 VLA backbone)+ trainable Adaptation Expert + Expert Query:query 从 VLM 抽 scene prior、从 Prior Expert 抽 motor prior,再注入 Adaptation Expert 引导专门化。25% 参数比 full FT、RoboTwin 2.0 比 π₀.₅ 高 11 点、LIBERO 99.1%、real-world OOD 57%(10-shot 32%)。

意义在于设计 motivation 比 VLA-GSE / CKT-WAM 直接:full FT 会 overwrite 预训知识、catastrophic forgetting 在 VLA 这种小 corpus fine-tune 场景里是真问题,把 Prior 和 Adaptation 物理隔离让 prior 严格不可写,结构上保证 forgetting 不会发生。但这个设计的代价 paper 没认真讨论:Expert Query 是 cross-attention 形式从 frozen prior 抽特征,这等于把 prior 当 retrieval database 用,retrieval 的精度强烈依赖 query 怎么训——一旦 query 训歪了 prior 就被”问错地方”,等价于 prior 没用。10-shot 32% OOD 是这一卷少见的 few-shot 报数,但 PriorVLA 没和 EAI10 里 DistillBC 风格 distillation 或 VLA-OPD 的 on-policy 蒸馏正面比,“参数高效”是否比”参数高效 + on-policy”更优是悬而未决的。比起 EAI11 里 VLA-GSE 那种 pure PEFT,PriorVLA 至少回答了”PEFT 为什么有用”(保 prior),方向上更正。

推荐指数:

ForceFlow#

Arxiv ID 2605.11048
幻觉翻译 2605.11048

非对称融合把力当全局调制信号 + V2F handover 把空间定位和接触控制分相位

ForceFlow 在力相关 VLA 这条已经被 ForceVLA / ForceVLA2 / FAVLA / TacVLA / FD-VLA / VTAM 挤满的赛道里给出了又一个变体,本质设计点是”力不该和视觉对称融合”。视觉的角色是空间定位、力的角色是接触调节,所以非对称 fusion 把力放在 global regulatory signal 位(不进 token sequence、不参与 cross-attn 平均),joint flow matching 让力和动作的速度场耦合预测;V2F handover 显式把任务分两相——approach 段 vision-dominant 走 VLM 定位,contact 段 touch-dominant 由力驱动。报比 ForceVLA 高 37%,计算成本更低。

跟同卷力 VLA 比,ForceFlow 的非对称融合其实和 AT-VLA 的”触觉换 query”是同一类思路(都承认力不该与视觉对称)但 ForceFlow 在 flow matching 层耦合,AT-VLA 在 cross-attn query 层切换;ForceFlow 的 V2F handover 又和 Ψ0\Psi_0 的 System-2/1/0 分相位结构同构,只是从 humanoid 全身换到了 manipulation 接触段。问题在于”approach / contact 两相分段”假设了任务可清晰二分,对滑动 + 抓握同时发生的连续接触任务建模能力存疑——这是 AT-VLA 也踩过的坑。“vs ForceVLA +37%“是同门对比,依然没和 FAVLA / TacVLA / VTAM 做 head-to-head,所以”非对称融合 vs 双频 async vs 视频底座”这个力 VLA 的核心范式之争还是没定论。EAI11 力相关 VLA 累积到第 6 篇,再不出 controlled comparison 这条 sub-track 就是 pile-of-modules 内卷。

推荐指数:

TouchAnything / EgoTouch#

Arxiv ID 2605.13083
幻觉翻译 2605.13083

208 任务 / 1891 episode 的 ego 视频 + 手姿 + 压力图数据集,配套从视觉预测触觉的框架

TouchAnything 押的是一个本来很有意思但落地需要谨慎的方向:能不能从 ego 视频直接预测出触觉信号,让触觉监督不再依赖昂贵的真传感器部署。EgoTouch 数据集是同步采的 head-mounted + wrist-mounted RGB 视频、手姿、压力图,208 任务 1891 episode 覆盖室内外。TouchAnything framework 用 ego view 当主输入,wrist view 在 inference 时灵活接入,加 wrist view 后 Contact IoU 提 5%、Volumetric IoU 提 6.1%。

价值核心在数据集——之前的触觉数据要么是单点传感器收集(GelSight 那一档)、要么是无 pressure ground truth 的 ego 视频(EgoDex 这档),EgoTouch 把 ego 视觉和 dense pressure 时间对齐做出来,对 vision-to-touch 这条研究路线是必要 enabler。但”从视觉预测触觉”这件事本身的 ceiling 论文没诚实讨论:视觉无法分辨 contact 力的细微变化(光看图片你看不出 0.5N 和 5N 的区别),所以 vision→touch 预测的真实上限被信息论卡死在”接触发生 / 未发生”这种粗粒度上,5%/6.1% IoU 提升正好印证还在 contact mask 这一档,没到 force magnitude。和 FD-VLA(蒸出假力 token)路线对照——FD-VLA 至少明说”我假装力”,TouchAnything 这个 framing 容易被误读成”视觉等价于触觉”,那是不对的。作为数据资源有价值,作为”replace tactile hardware”的 claim 要打折扣。

推荐指数:

BlockVLA#

Arxiv ID 2605.13382
幻觉翻译 2605.13382

block 内并行 denoise + 跨 block 自回归保持 KV cache 复用的 AR-diffusion 混合 VLA

BlockVLA 是 Fast-dVLA 同问题的另一种解法:discrete diffusion VLA 的 inference cost 是部署的死穴。两者技术取舍正好对照——Fast-dVLA 是从 dVLA(MMaDA-VLA 那种 full diffusion)出发,靠 block-wise sequential + diffusion forcing + asymmetric distillation 加速;BlockVLA 反过来从 AR backbone(OpenVLA / GR00T 这条 autoregressive 主流)出发,做 block diffusion finetune——保留跨 block 的 AR 依赖以便 KV cache 复用,block 内部并行 denoise 去掉序列瓶颈。3.3× speedup vs discrete diffusion baseline,LIBERO + SimplerEnv 验证。

意义在于把”AR vs diffusion vs unified discrete diffusion”这三条 VLA 主线第一次有了一个明确的”中间档”过渡方案。社区当前在两难——AR 推理快但 long-horizon 一致性差,full diffusion 一致性好但慢,BlockVLA 取折中。和 Fast-dVLA 在同一象限竞争:Fast-dVLA 路线是”已经选了 dVLA 那就加速”,BlockVLA 路线是”AR 的 deployment 友好性不能丢,加一点 diffusion 拿一致性”。3.3× vs Fast-dVLA 的 2.8-4.1× 数字接近,但 baseline 不同所以不能直接比。真正的判定要看绝对实时延迟数字 + 长程任务一致性 trade-off,论文都没给。Limitation 在 block 长度这个超参——太短退化成 AR、太长退化成 full diffusion,最优 block 长度跨任务是否稳定是部署的关键问题。比 MMaDA-VLA 那种”unified discrete diffusion 是新第三条路”的宏大叙事,BlockVLA 走的是务实路线,但本质上没有提出新范式,只是工程化拼接。

推荐指数:

PhysBrain 1.0#

Arxiv ID 2605.15298
幻觉翻译 2605.15298

ego 视频 → 物理常识 QA → VLA 的数据 pipeline 技术报告

PhysBrain 1.0 是把 EAI 系列里反复出现的”ego 视频 → 机器人能力”思路再做一次,但落点稍微挪了一下:不是直接把 ego 视频 IDM 反标成 action(LAPA / GR00T-Dreams / UMI 那条),也不是当 humanoid retargeting 来源(Ψ0\Psi_0 + EgoDex 那条),而是先把视频转成”物理常识 QA”——scene element / spatial dynamic / action execution / depth-aware relation 这四个维度的问答对,先训 VLM 的 physical understanding,再以 capability-preserving + language-sensitive 的方式把这些 prior 适配到 VLA 策略上。ERQA / PhysBench / SimplerEnv-WidowX / LIBERO / RoboCasa 上 SOTA,SimplerEnv OOD 上特别强。

这个路线设计有合理性:把”物理常识”和”动作执行”解耦,让 VLM 先学懂 physical reasoning 再下放给 action policy,不指望从 noisy IDM 标注的 action 里学物理。但落地实质有几个尖锐问题:所谓”物理常识 QA”是用什么模型自动生成的,论文没强调,如果还是用 VLM 自标然后用同源 VLM fine-tune,本质就是 self-distillation 套了个数据增广皮;这套 QA 训练目标和真正的”物理理解”之间的对应关系是含混的——回答”杯子会不会倒”和模型在 manipulation 时真的预判物理后果是两回事,是个老 ELLM / RT-2 时代就讨论过的 grounding gap 问题,PhysBrain 没新解。SimplerEnv OOD 强这一点要看 baseline 选择——如果对的是 OpenVLA 这种没 ego 预训的,强是当然的,关键是和 GR00T-N1.5 / Ψ0\Psi_0 这种同样用了 ego 视频 prior 的工作比是否还有优势,论文必须给。整体框架像是 RoboBrain / RoboFlamingo 那条”先训通用 VLM 再下放 manipulation”的 2026 版包装。

推荐指数:

HoloMotion-1#

Arxiv ID 2605.15336
幻觉翻译 2605.15336

视频重建 motion + MoCap 混合 corpus + sparse MoE 的 humanoid motion foundation model

HoloMotion-1 在 humanoid motion 这条路上的核心赌注是”in-the-wild 视频重建出来的 motion 数据,质量虽然差但 diversity 大,能撑住 zero-shot 全身 tracking”。架构是 sparse MoE Transformer + KV cache inference 拿实时控制,训练用 hybrid corpus——video-reconstructed motion + curated MoCap,sequence-level 训练策略针对长 motion 序列优化。报跨多个 unseen motion benchmark robust generalization,直接 zero-shot 部署到真机不用 task-specific finetune。

Ψ0\Psi_0(800h EgoDex 预训 humanoid VLA)、AMO / OmniH2O / ExBody(纯 RL tracking)、Heracles(diffusion middleware)一卷对照,HoloMotion-1 的取舍是不碰 task semantic(不接 VLM 上层)、专注 motion tracking 的 foundation,给 humanoid VLA stack 当下层 motor primitive 使用。“视频重建 motion 当训练数据”这条路风险是真的:reconstruction noise 直接污染 motion label,论文 claim 用 sequence-level 训练 + 大容量模型来对抗 noise,但 noisy label 在 humanoid 这种 36-48 DoF 高维 + 物理约束严格的输出空间里能不能 graceful degrade 是非常存疑的——之前 H2O / OmniH2O 都明确避开这条路,理由就是 reconstruction error 比 MoCap 高一两个量级,直接训会教会模型物理上不可行的 motion。论文必须给”video-only / MoCap-only / hybrid”的消融才能证明 video reconstruction 真的有贡献而不是 MoCap 在拉分。Sparse MoE 在 humanoid control 上是少见的选择(控制频率敏感,路由开销可能成为瓶颈),KV cache + MoE 的 deployment 延迟数字论文也得给。

推荐指数:

RoboFlow4D#

Arxiv ID 2605.17522
幻觉翻译 2605.17522

直接从视觉 + 指令预测多帧 3D flow,slow-fast 与动作控制协同的轻量 flow world model

RoboFlow4D 押在”4D flow 作为 hierarchical VLA 中间表示比 2D trajectory / 3D point cloud / RGB future frame 都更合适”这个 bet 上,方法本质是一个端到端轻量框架直接预测多帧 3D 流,不堆 perception + flow estimation + planner 三个 submodel,而是单网络给出 future 3D motion field,slow-fast 协同——慢支预测 4D flow 当 planning context、快支基于 flow 出 action。

和 ST-VLA(3D 路径 + smooth mask)、VP-VLA(2D crosshair overlay)这两个 EAI11 同卷的 hierarchical VLA 中间表示对照,RoboFlow4D 选 dense 3D flow 是最 information-rich 的中间格式。问题是这种富表示的代价:4D flow 的 supervision 怎么来?真机数据里没有 3D ground-truth flow,要么靠多视图重建(噪声大)要么靠仿真合成(domain gap),论文必须正面回答这一笔账。“lightweight + real-time”这个 claim 在 4D flow 这种 output dimensionality 下天然矛盾——dense 3D 多帧 prediction 不是 lightweight 任务,除非空间分辨率压得很低,那 information-rich 的优势就没了。和 ST-VLA 比,那篇至少用 SAM2 给出 explicit 2D mask 监督 + lift 到 3D,supervision pipeline 是闭合的;RoboFlow4D 的 supervision pipeline 不清楚就是悬空的。属于方向有道理但工程闭环不完整的 mid-tier 工作。

推荐指数:

WorldArena 2.0#

Arxiv ID 2605.17912
幻觉翻译 2605.17912

把 embodied world model benchmark 从单视觉 / offline / sim 扩到 visuotactile / interactive RL / 真机

WorldArena 2.0 不是方法论文,是 benchmark 扩展工作:把 embodied world model 评估在 modality(视觉 → 视觉+触觉)、functionality(offline policy eval → interactive RL env)、platform(sim only → sim + real)三个维度统一扩开。

价值在 framing 是对的——世界模型这条路(Cosmos-Policy / GR00T-Dreams / RDT2 / VPP / LingBot-VA)发展到现在评测确实落后于方法,大家在不同 setting 报点很难对齐。WorldArena 2.0 提供统一协议本身有用。但要警惕这个 benchmark 落地的”看似全面实际散”的风险——visuotactile 怎么标准化触觉传感器的差异(GelSight / 阵列 / FBG 都不一样),interactive RL env 怎么裁判世界模型的 rollout 质量(rollout 看着合理但下游 policy 用不到也无意义),real-world 怎么 fair 对比依赖硬件配置的方法,这三件事每一件都难。和 EAI11 里 World Action Model vs VLA Robustness Study 是同方向但更系统化,和 ManipArena / LIBERO-Plus 是 complementary(那两个是 policy benchmark)。作为 reference benchmark 引用合理,但社区会不会真用起来取决于评测细节是否扛得住——很多 benchmark 论文最后都死在”大家还是各自报各自的”。

推荐指数:

Dexora#

Arxiv ID 2605.18722
幻觉翻译 2605.18722

开源高 DoF 双臂双手 VLA:exoskeleton + Vision Pro 混合采集 + 数据质量加权训练

Dexora 是少见的把”高 DoF 双臂双手 dexterous VLA”做开源的工作,关键设计两件:Hybrid Teleoperation 把粗大臂 kinematics(自制 exoskeleton 背包)和细致手指 motion(Apple Vision Pro markerless 手部追踪)解耦——这是个聪明取舍,全身 mocap 设备贵且精度有限,Vision Pro 的手部追踪天然适合 fine finger,臂部精度由 exoskeleton 保;Data-Quality-Aware Training 用 offline discriminator 给每个 clip 一个权重训 diffusion transformer policy,降低 noisy teleop 数据的污染。数据规模 100K 仿真 + 10K 真机 episode,dexterous 平均 66.7% vs baseline 51.7%。

定位很清楚:dexterous 这条路(UniDex、DexMimicGen、Open-Television)的瓶颈一直是采集设备的高 DoF teleop 不可扩展,Dexora 的 hybrid teleop 在硬件可获得性 + DoF 覆盖之间找了一个实用平衡。data-quality-aware training 这块和 VLA-OPD(on-policy)、VAMPO(RL 修 video model)属于”数据 / 训练目标改良”那波,思路同源——承认数据噪声不可消除,那就在 loss 上 down-weight。但有几个真实问题:Vision Pro markerless tracking 的手部精度在快速运动 / 遮挡下会显著掉,论文必须给 tracking accuracy 的硬数据;offline discriminator 给 clip-level 权重的训练目标是什么 paper 必须说清——如果 discriminator 是”区分专家 vs 非专家”那就是 inverse RL 老套路、如果是”预测成功”那就是 success classifier 加权,两者 implication 完全不同。Open-source 这个 attribute 让 Dexora 即使方法不顶尖也有 follow-up 价值,UniDex 那种闭源数据集和 Dexora 这种开源 stack 是互补的。

推荐指数:

Active Spatial Brain + Action Cerebellum#

Arxiv ID 2605.21133
幻觉翻译 2605.21133

multi-agent 大模型当 spatial planner + 不需要任务真机数据的 humanoid 全身操作框架

这篇押的是”humanoid 全身 manipulation 不需要任务特定真机数据,靠多智能体大模型的空间感知 + 决策就能 generalize”。两件套:Active Spatial Brain 做主动空间感知 + 决策,把任务拆成子任务序列;Generalizable Action Cerebellum 在 brain 决策的基础上生成执行动作,号称不需要 task-specific real robot data。

读完一句话:这是个”VLM-as-controller”包装得 humanoid-ish 的工作,本质问题在 EAI11 CaP-X 那篇已经做过系统化 audit——code-as-policy / VLM-direct-controller 这类路线在 frontier VLM 加持下表面上能 demo,但 reliability 高度依赖人工抽象的 perception/control primitive,往 raw primitive 退就崩。本文的 “Generalizable Action Cerebellum” 不依赖真机数据这个 claim 在 humanoid 全身这种 contact-rich + 高 DoF + 动力学复杂的场景下听着就不靠谱——humanoid manipulation 不是 pick-and-place,没有真机数据训出来的 motor primitive,再聪明的”brain”也调度不出可执行的全身协调。这种 framing 在 Pi-0.5 / GR00T-N1.5 / Ψ0\Psi_0 这一卷”真机数据 + 专门 action expert”主流路线面前显得是 demo-friendly 但 deployment 不可行。和 ASB ↔ Brain、GAC ↔ Cerebellum 这种神经科学借喻除了 marketing 之外不带来任何实质 inductive bias。属于典型的 pile-of-modules + 大模型 framing 包装,没有实质技术取舍能撑住 humanoid 全身这个赛道,EAI11 收尾的最后一脚踢在虚处。

推荐指数:
Paper Reading: Embodied AI 11
https://axi404.top/en/blog/paper-reading-eai11
Author 阿汐
Published at May 6, 2026
Comment seems to stuck. Try to refresh?✨