Paper Reading: Embodied AI 11

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

Embodied AI Paper Reading

Thousand-GPU Embodied Training Recipe#

Arxiv ID 2603.11101

幻觉翻译 2603.11101

把 GR00T-N1.5 训练时间从 15h 压到 22min 的千卡基建

这篇是工程报告，价值在系统优化的具体细节而不是算法。主要 stack：上层用 Ray 驱动的弹性数据湖 + Yunhai 高性能存储 + 3.2T RDMA 解 I/O 瓶颈（之前会造成 NCCL timeout）；中层 variable-length FlashAttention 去掉 padding 浪费（188% 提速）+ data packing 把多样本塞同序列 + π₀.₅ 架构级改造（165%）+ FP8 block-wise 量化（140%）；上层”RL-VLA3”三级异步把 env 交互 / trajectory 生成 / policy 更新解耦，吞吐再加 126%。在 GR00T-N1.5 上单轮训练 15h → 22min（40x）。

定位很清楚——把 LLM 训练社区已经成熟的工程套路（async pipeline、FP8、packing、FlashAttn）系统化搬到 VLA。算法侧没有新东西，但是大规模 VLA 训练社区里这种 end-to-end 的工程报告并不多见，做基建的可以直接当 cheat sheet。Limitation 也很坦白：128-256 卡之后 sublinear，通信开销吃掉收益，所以”千卡”在实际部署里更多是 marketing 词，真正能拿到的高效率区间还在几百卡量级。

推荐指数：

$\Psi_0$ #

Arxiv ID 2603.12263

幻觉翻译 2603.12263

Ego 视频预训 + 机器人后训 + AMO 底层控制的三层 Humanoid VLA

$\Psi_0$ 反对一个常见做法：把人类 ego 视频和真机数据 naive co-training，理由是两者运动学差距太大，混训会污染表示。它给出的解法是分段：先在 800 小时 EgoDex 上做 next-action 预训（48 DoF task space），再在 31 小时 Humanoid Everyday 上用 Flow Matching 做后训（36 DoF joint space），最后任务级 30 小时遥操作微调。System 上是三层：System-2 是冻结的 Qwen3-VL-2B、System-1 是约 500M 的 MM-DiT 作 Flow Matching action expert、System-0 是 AMO 下身 RL controller。论文 claim 用了大约 Pi-0 / Pi-0.5 一成的真机数据，成功率反而高 40%。

跟 Pi-0 / Pi-0.5 的关键差别有两点：用 MM-DiT 而不是普通 DiT 做 VL-action fusion、用训练期 RTC 而不是测试期 guidance 解推理延迟。整体属于 Humanoid VLA 里比较有自己技术取舍的工作。Limitation 论文坦白：算力卡死了进一步 scale 人类视频和真机数据，硬件 payload 限制更复杂的 manipulation 任务范围，所以”少数据多收益”这个 claim 在更大数据 / 任务规模下还没有验证。

推荐指数：

TacVLA#

Arxiv ID 2603.12665

幻觉翻译 2603.12665

紧凑触觉 token + 接触感知 gating 的 PaliGemma VLA

TacVLA 差异化在触觉表征：之前的 tactile-VLA 多把触觉当 image-like 输入（密集像素），TacVLA 把 15×8 触觉阵列用 MLP + 2D 位置编码压成 36 个紧凑 token，并加一个 contact-aware binary gating——只在检测到接触时才让触觉 token 参与 attention，否则直接 zero out。底模是 PaliGemma + Pi-0.5 风格 Flow Matching action expert，OpenPI 上 LoRA 微调 1 万步。

跟 EAI10 内已经覆盖的几篇触觉 VLA 比有清晰位置：FD-VLA 是不要真传感器、用蒸馏假装力 token；FAVLA 是双频 async + 力反馈直接进特征；UniForce 是跨传感器统一表征。TacVLA 的取舍是”真传感器、压缩到少 token、靠 gating 抑制无关信号”。Limitation 论文自己点出来很关键：binary threshold 是 hard heuristic，根本不是 learnable 的，gradually 调整模态重要性需要 learnable gating；以及触觉传感器空间分辨率低天然限制细粒度 contact 形状推理；并且只测短程接触任务。整体设计 OK，但是 binary gate 这一步的 hack 性质是后续工作要解决的明显问题。

推荐指数：

ST-VLA#

Arxiv ID 2603.13788

幻觉翻译 2603.13788

3D 轨迹 + 平滑空间 mask 作中间表示的层级 VLA

ST-VLA 的 motivation 比较明确：现有 hierarchical VLA 用 2D 轨迹或 mask 当中间表示，丢掉 3D 几何与时间连续性。它把中间表示升维到 4D（3D 轨迹 + 时间），核心两件事——把 2D guidance lift 到 3D path 并以 cylinder 围出 spatial tube；用 cross-modally aligned smooth mask 替代 hard mask 让 boundary 平滑，避免下游 policy feature 抖。架构是 Qwen3-VL-4B 微调成 ST-VLM 出 sub-instruction + 3D trajectory，下游接专用 3D policy（3DDA / 3DFA），数据集 ST-Human 30 万人类操作 episode、14 任务、4.3M 样本带 2D/3D/4D 多层标注。

跟 RT-Trajectory / Track2Act 这类 2D 轨迹方法比明显是个升维；跟纯 3D value map 比保留了显式时间结构。一个值得注意的设计是 smooth mask 可以和 vanilla policy 兼容、不需要每个 policy 重训，这让方法可以作为外挂中间层使用。Limitation 论文坦白：单视图 + 重度依赖 SAM2，clutter 场景里分割崩了整个流程就崩；扩 multi-view 还是 future work。整体在 hierarchical VLA 的中间表示设计上做得比较扎实。

推荐指数：

ForceVLA2#

Arxiv ID 2603.15169

幻觉翻译 2603.15169

Cross-Scale MoE + 力 prompt 引导任务分解的 hybrid 力位 VLA

ForceVLA2 是 ForceVLA 续作，关心的是把力从单纯感知输入升级为主动闭环控制信号。架构双层：长程层用 PaliGemma/SigLIP 接力 prompt 引导任务分解，短程层多模态 encoder 吃 6D pose + 6D 力，并且让力信号 bypass 上层 VLM fusion 直接进 reactive 通路；输出层是 Cross-Scale MoE 在 visual / state / force 专家间路由，最终走 Flow Matching 出关节位置-力联合命令 + subtask 进度。训练数据是用带力反馈的 GELLO 遥操作的 1000 条轨迹覆盖 5 个接触任务。

EAI10 这一卷里面力相关 VLA 多得有点扎堆：FD-VLA 直接蒸出假力 token 不要传感器、FAVLA 做双频 async + 力进特征、TacVLA 用 binary gating 控触觉 token、CompliantVLA-adaptor 在外面挂 VIC。ForceVLA2 的位置是”真力 + 力 bypass + MoE 路由”，这个 force-bypass 设计逻辑上是对的——力闭环就该绕开 VLM 的高延迟通路。但是论文没有 head-to-head 比这些同期力相关 VLA，只对到 π₀ / π₀.₅ / 自家 ForceVLA，66% vs 18% / 31% / 35%，所以”力为什么有用”被对比清楚了，“我和 FD-VLA / FAVLA 谁更好”是没回答的。Limitation 论文自己点出：力交互对摩擦 / 接触建模太敏感，仿真结果不可信，所有验证都是真机 1000 条轨迹规模——意味着这条路 reproducibility 一直是问题。

推荐指数：

OmniReset#

Arxiv ID 2603.15789

幻觉翻译 2603.15789

用多样化初始 state 分布替代 curriculum / demo 的暴力 RL

OmniReset 的赌注是”不用 curriculum、不用 demo、不用 per-task reward shaping，只要 reset 状态分布够多样、batch 够大、并行够暴力，dexterity 就会涌现”。具体做法是预先 sample 出覆盖 reaching / near-object contact / stable grasp / near-goal 四种交互模式的可行 reset 状态，缓存在 GPU 上，PPO + asymmetric actor-critic（actor 受限观测、critic 用特权信息）+ gSDE 探索噪声 + 任务无关的 sparse + dense reward 混合，超参跨任务全固定。最后用 student-teacher distillation 把 state-based expert 蒸到 RGB visuomotor 上（8 万条仿真轨迹 + 重 randomization）。

核心 insight 实际上是把 RL exploration 难题换成了 reset state 多样性问题，逻辑上说得通：训练分布只要覆盖 inference 时会遇到的状态，sparse reward 就能传得起来。Limitation 也很直接——整个 pipeline 依赖一个 grasp sampler 给出可行 reset，复杂非凸物体上 sampler 一崩整个 reset 分布就毁；以及 sim-to-real gap 大，Drawer Insertion 仿真 90% 真机只剩 15%，RGB student 也明显弱于 state expert。当作”如果有强仿真 + 强 grasp 采样 + 大算力”的暴力 RL 配方参考是合适的。

推荐指数：

MolmoB0T#

Arxiv ID 2603.16861

幻觉翻译 2603.16861

Molmo2 + 1.7M 纯合成数据零样本到真机的 VLA

MolmoBot 想直接挑战社区的”Sim-only 训不出 work 的真机 VLA”这个共识：放弃真机数据，全靠 MolmoBot-Engine 的程序化数据管线生成 170 万条合成轨迹，覆盖 9.4 万个程序化生成房屋 + 1.1 万个独立物体，重 domain randomization 但是不追求 photorealism，赌的是”环境多样性 >> 渲染真实度”。架构给了三档：MolmoBot 是 Molmo2-4B + DiT Flow Matching action head（cross-attn 接 VLM 中间 hidden state）、MolmoBot-Pi0 是相同结构但用 π₀ 拓扑做对照、MolmoBot-SPOC 是轻量 Transformer + 离散 quantile bin 动作，给端侧部署。

价值在于 zero-shot 真机的 claim 如果稳，这是对”必须真机大数据”主流路线的一次实质打击。Limitation 也写得直接：完全被仿真器能力卡死，只能做刚体 + articulated，contact-rich / 软体根本进不来——这恰好是 VLA 现在最在意的方向。所以这条路的现实定位是”在仿真器 cover 得到的任务范围内，多样性可以替代真机数据”，而不是”sim-only 解决一切”。

推荐指数：

OmniVTA#

Arxiv ID 2603.19201

幻觉翻译 2603.19201

21K 真机触觉数据 + 接触演化预测 + 60Hz 闭环的 visuo-tactile 框架

OmniVTA 押的不是 fancy fusion 而是数据规模 + 闭环：OmniViTac 数据集 21K 真机轨迹覆盖 86 任务 / 100+ 物体，架构四件套——自监督 tactile encoder、双流 contact 演化预测、接触感知 policy、60Hz tactile 反馈控制器。“world model” 的 framing 实际指 short-horizon next-contact rollout，policy 拿预测和实测残差驱动高频 corrector。

跟 EAI10/11 卷里堆起来的 FAVLA / TacVLA / FD-VLA / ForceVLA2 比，OmniVTA 的取舍不是”加一路力 token 进 VLM fusion”，而是把触觉做成独立的预测/反馈链路，VLM 路径和 tactile 路径异步运转。21K 真机数据规模在触觉这一档是大档位——比 TacVLA / ForceVLA2 都多一个数量级，作为后续触觉 VLA 的 pretraining corpus 是有用的。Limitation 在 “world model” 名字给得有点重，dual-stream prediction 实质是 short-horizon contact 预测不是 latent dynamics（和 Cosmos-Policy / GR00T-Dreams 不在同一档），以及 60Hz 控制器在 deployment 板子上的真实跑通量化论文没给。

推荐指数：

VAMPO#

Arxiv ID 2603.19370

幻觉翻译 2603.19370

把 GRPO 搬到 diffusion-based video action model 的后训方法

VAMPO 押的是把 LLM 后训那一套（GRPO）搬到 video action model 的 denoising 上。把多步 denoising 重写成 sequential decision，Euler Hybrid Sampler 只在第一步注入 stochasticity 让 policy gradient tractable 估，reward 用 expert 在 latent space 的 visual dynamics 当 verifiable signal——不是 adversarial、不是 likelihood，本质就是 GRPO 那套 group-relative。卡的是 video predictor 用 likelihood 训出来”plausible 但不精准”这个对 manipulation 致命的 objective mismatch。

定位上是 RDT2 / Cosmos-Policy / VPP 这条 video-as-action 路线的后训补丁。社区已经认了”video pretraining 给 robust prior 但不给精确控制”这个 trade-off，VAMPO 是第一批明确用 RL 后训去修这个 mismatch 的工作之一。值得跟踪的点：single-step stochastic 的 trick 在更长 horizon / 更高维 action 上是不是会 collapse、verifiable latent reward 跨任务 transfer 是不是稳。比 EAI11 里 OmniReset 那种”硬上 PPO + dense+sparse hybrid reward”干净——把 reward design 从 task shaping 转移到 representation similarity 上。

推荐指数：

VP-VLA#

Arxiv ID 2603.22003

幻觉翻译 2603.22003

把目标物体 / 终点 render 成 crosshair / bbox overlay 的 hierarchical VLA

VP-VLA 走 hierarchical 但中间表示选了一条比较取巧的路：System 2 Planner 解析指令、定位目标 / 终点，把空间锚点 render 成 crosshair / bounding box 直接画在观测图像上，下游 System 1 Controller 看着 overlay 后的图像执行；planner 训练时加 visual grounding aux loss。在 Robocasa-GR1-Tabletop / SimplerEnv 上对 QwenOFT、GR00T-N1.6 涨 5-8%。

跟 ST-VLA 是一对很好的对照组——同样是 hierarchical VLA 的中间表示选择，ST-VLA 把表示往 4D 升（3D 路径 + 平滑 mask）、VP-VLA 把表示往 controller 现成视觉接口靠（2D image overlay）。VP-VLA 的优势是不需要重训 controller、可以挂在 vanilla VLA 外面用；劣势就长在这个取舍上：crosshair / bbox 是 2D 投影，contact-rich / occlusion / 多物体场景能传的信息天然受限，遇到三维结构复杂的任务 information bottleneck 比 ST-VLA 严重。是个工程取舍合理但 ceiling 容易看见的设计。

推荐指数：

World Action Model vs VLA Robustness Study#

Arxiv ID 2603.22078

幻觉翻译 2603.22078

LIBERO-Plus / RoboTwin 2.0-Plus 上对 WAM 和 VLA 做扰动鲁棒性 controlled study

不是方法论文，是 controlled study：在 LIBERO-Plus 和 RoboTwin 2.0-Plus 上对 World Action Model（LingBot-VA、Cosmos-Policy）和 VLA（π₀.₅ 等）做 visual / language 扰动下的鲁棒性对比。结论是 WAM 普遍更鲁棒（LingBot-VA RoboTwin 2.0-Plus 74.2%、Cosmos-Policy LIBERO-Plus 82.2%），VLA 想追平需要更大、更杂的 robotic 数据；混合 video prior 的 hybrid 方案落在中间。

价值在把社区里口口相传的”video pretraining 给鲁棒 representation”做成 controlled comparison，给后续 VLA / WAM 选型时一个可以引的数据点。和 EAI 系列里 RDT2 / Cosmos-Policy / VPP 的发展路径相互佐证——video prior 主要 buy 的是 robustness 不是 task fitting。论文本身没新方法，但作为后续工作里 motivation / related work 的 benchmark 引用是合理的，不该被当方法论文读。

推荐指数：

UniDex#

Arxiv ID 2603.22264

幻觉翻译 2603.22264

50K + 8 dexterous hand 的 cross-embodiment dataset + FAAS 共享动作空间

UniDex 是 dexterous 这一支的 dataset + foundation 套件（CVPR 2026 接收）：50K+ 轨迹覆盖 8 种 dexterous hand（6-24 DoF），来源是 ego 视频 + human-in-the-loop retargeting 转成机器人轨迹，关键 abstraction 是 Function-Actuator-Aligned Space (FAAS)——不指望关节角度对齐，只指望”功能”对齐（指尖 pinch 对 pinch、palm 对 palm）。policy 是 3D pointcloud（mask 掉人手）输入的 VLA，配套 UniDex-Cap 是便携 RGB-D + 手姿采集站。报 81% 平均 task progress 在 tool-use 上。

定位是 EgoDex / DexMimicGen / Open-Television 一支的延伸，但 FAAS 这层 abstraction 是这条路里少见认真做 cross-embodiment 的：之前的 retargeting 多停留在 fingertip pose，UniDex 把 functional alignment 做成 explicit 共享空间，理论上能让 policy 跨手 transfer。和 $\Psi_0$ 用 EgoDex 800h 直接预训 humanoid 的路线对照——一个押 humanoid full-body retargeting，一个押手部 functional retargeting，都在解 “real robot data 太贵”。Limitation 是 human-in-the-loop retargeting 这一步不 scale，hand-object contact plausibility 在复杂物体上的保持精度论文也没量化——这是后续工作要补的硬骨头。

推荐指数：

CaP-X#

Arxiv ID 2603.22435

幻觉翻译 2603.22435

Code-as-Policies 范式的系统化 audit + RL 强化

CaP-X 不是新 VLA，是把 Code-as-Policies 这条 2022 年的老路线在 LLM 强化的 2026 重新做 audit：CaP-Gym 仿真环境 + CaP-Bench 任务集 + 12 个 frontier VLM 横评 + CaP-Agent0（training-free baseline，靠 multi-turn / structured execution feedback / visual differencing / 自动 skill 合成 / ensemble reasoning 把 reliability 推到 human-level）+ CaP-RL（verifiable reward）。核心结论：code-as-policy 性能高度依赖人类预先抽象出来的 perception/control primitive，往 raw primitive 退一步 reliability 显著掉。

读完的实质 take 挺残酷：方向上证伪了”frontier VLM 直接出可执行 code 操作机器人”这种 demo-friendly narrative。CaP-Agent0 那一堆 trick（multi-turn、execution feedback、visual diff、ensemble）能把 reliability 推上去，但本质上这些 trick 是在替代被去掉的 designer scaffold——code agent 的 ceiling 在那里没动。这种系统化 audit 类工作比单点 demo 论文更有 reference value，看了之后能直接干掉一类 “VLM-as-controller” 的 baseline 假设。

推荐指数：

VTAM#

Arxiv ID 2603.23481

幻觉翻译 2603.23481

video transformer + tactile retrofit，无需 paired tactile-language 数据

VTAM 路线和 EAI11 里几篇触觉 VLA 不一样：不从 PaliGemma + Pi-0.5 加 force token 开始，而是从预训 video transformer 开始，用 lightweight modality transfer finetuning 把 tactile 流加进来；为了防止 visual latent 主导 cross-modal attention，加 tactile regularization loss 强制 attention balance。卖点是不需要 paired tactile-language 数据。报 90% 接触富任务成功率、potato chip pick-and-place 比 π₀.₅ 高 80%。

跟 TacVLA（紧凑 token + binary gating）、FAVLA（双频 async）、ForceVLA2（Cross-Scale MoE + 力 bypass）三条路对照，VTAM 押的是”video prior 比 VLM prior 更适合作为触觉 retrofit 的底座”。potato chip vs π₀.₅ 是这卷里少见的直接 head-to-head 数据点。Limitation 跟 TacVLA 是同病——tactile regularization 是手工的 cross-modal balance constraint，不是 learnable 的 modality importance；且和同期触觉 VLA 之间没 controlled comparison，“video 底座 vs VLM 底座”哪个真更好这卷还是没定论。

推荐指数：

MMaDA-VLA#

Arxiv ID 2603.25406

幻觉翻译 2603.25406

把 language / image / action 全部 tokenize 进 discrete diffusion 的统一 VLA

MMaDA-VLA 把 unified discrete tokenizer 这条路（LWM / Show-o / Unified-IO）真正在 VLA 上做出来：text 走 LLaDA tokenizer、image 走 MAGVIT-v2、action 每维 256 bin 离散化，single backbone + masked token denoising 一次性 parallel 生成 future goal observation 和 action chunk，inference 时 iterative denoise 加 confidence-based remask，做 order-free refinement。LIBERO 98% / CALVIN 4.78 是这一卷顶部档位。

意义在于把 VLA 的范式从 hierarchical（System2+System1）和 autoregressive（RT-2 / OpenVLA / GR00T）两条主流加了第三条 unified discrete diffusion。卖点不是新 architecture 而是新 token space——language、vision、action 在一个空间里 jointly denoise，长 horizon 一致性可以靠全局 refinement 修，不像 AR 那样一旦犯错就传到底。配 Fast-dVLA 那一类 inference 加速看才完整：discrete diffusion 的 denoising 步数代价是这条路的天花板。如果 Fast-dVLA 那种工作能把 inference 推到 30Hz，MMaDA-VLA 这条路就有真实部署可能。

推荐指数：

Fast-dVLA#

Arxiv ID 2603.25661

幻觉翻译 2603.25661

block-wise KV cache + diffusion forcing + asymmetric distillation 把 dVLA 推到实时

Fast-dVLA 是 MMaDA-VLA 的配套加速工作：discrete diffusion VLA 的 inference 受 denoising 步数拖累远低于 30Hz 实时门槛。三件套——block-wise sequential generation 拿到 KV cache 复用、diffusion forcing 让后续 block 不用等前 block 完成 denoise（多 block parallel decode 不同 noise level）、asymmetric distillation 从已经训好的 dVLA 蒸到加速版。报 2.8-4.1× speedup 不掉点。

定位非常清楚：discrete diffusion VLA 这条路（MMaDA-VLA、LLaDA-style）的最大 deployment 障碍就是 inference cost，Fast-dVLA 把 LLM 那边已经成熟的 speculative decoding / KV cache / block parallel 那一套整体搬过来。和 RTC（test-time guidance）、 $\Psi_0$ 的训练期 RTC 不是一类——那两条是 single-step 的 control-loop trick，Fast-dVLA 是 generation-loop 的真算力优化。一个 path 的 verdict：discrete diffusion VLA 想从 LIBERO benchmark 走到真机 30Hz，必须有 Fast-dVLA 这一档工作。

推荐指数：

VLA-OPD#

Arxiv ID 2603.26666

幻觉翻译 2603.26666

expert teacher 在 student on-policy trajectory 上做 dense token-level 蒸馏的 VLA 后训

VLA-OPD 是把 LLM 后训那一套 on-policy distillation（GKD / DistillBC 之类）搬到 VLA：不要环境 reward，让 expert teacher 在 student 自生成 trajectory 上做 dense token-level 监督，关键设计在 KL 形态选择——Reverse-KL 取 mode-seeking 避开 Forward-KL 的 mode-cover 和 Hard-CE 的 entropy collapse，filter epistemic uncertainty。LIBERO + RoboTwin 2.0 上验证。

本质是用 teacher 替 reward function 解 RL 的 sample efficiency 问题，又用 on-policy student trajectory 解 SFT 的 distribution shift 问题，是一个 LLM 训练社区已经验证的范式被 VLA 抄过来。比起 ForceVLA2 / OmniReset 那种”硬上 PPO + asymmetric AC + dense reward shaping”的 RL 路线，VLA-OPD 对 reward design 不敏感，更适合 long-horizon。问题在赌 expert teacher 的 quality——teacher 弱 student 学不动，teacher 强又得先有 teacher，所以 chicken-and-egg 这一关在 VLA 里比 LLM 棘手（LLM 有 GPT-4 当 teacher，VLA 没有公认的 universal 强 teacher）。是个范式正确但 deployment 上要先解决”哪儿来的 teacher”的工作。

推荐指数：

Heracles#

Arxiv ID 2603.27756

幻觉翻译 2603.27756

state-conditioned diffusion 当 humanoid reference tracking 和 physics tracker 之间的 middleware

Heracles 在 humanoid control 上的设计取舍：把 diffusion 不当生成器、当 controller 中间层。state-conditioned diffusion 夹在 reference motion 和 physics tracker 之间，状态正常时退化成 identity map 保 tracking fidelity、状态显著偏离时切到 generative recovery 合成一段 anthropomorphic 恢复轨迹再回到参考。

和 EAI 之前的 AMO / OmniH2O / ExBody 这种纯 RL tracking 路线明显分流。卖点其实就一个 insight：把”rigid tracking + 故障 fall over”升级成”tracking + diffusion 兜底”，把 motion prior 当 fail-safe。 $\Psi_0$ 用 AMO 当 System-0 走 RL 路线，Heracles 这种 diffusion-as-middleware 是另一条解法，能不能跟 humanoid VLA stack（ $\Psi_0$ 类）集成是后续看点。Limitation 在实时性——humanoid control 要 50Hz+，diffusion 哪怕 1-step 也有 latency；论文需要 deployment frequency 的硬数据才能区分这是 paper-only 还是真能上机。

推荐指数：

ManipArena#

Arxiv ID 2603.28545

幻觉翻译 2603.28545

10K trajectory + long-horizon mobile manipulation + real-to-sim 对齐的真机 benchmark

ManipArena 是个真机 benchmark：20 任务 / 10812 expert trajectory / 多机器人平台 / long-horizon mobile manipulation / 含 motor 信号的 sensory diagnostics / 用高质量 3D 扫描做 real-to-sim 同步环境对齐。focus 在 reasoning-oriented generalist manipulation 而不是单点 skill。

跟 LIBERO / RoboTwin / RoboCasa 这一档 sim benchmark 比，ManipArena 的关键卖点是真机 + real-to-sim 对齐——“sim 通过但真机翻车”这个 VLA 落地老问题，需要这种同步环境才能 disentangle。10K trajectory 在真机 benchmark 里算大档位（比 BRIDGE-V2 量级低、比纯单点 demo 高），long-horizon mobile manipulation + motor signal diagnostics 是 LIBERO / RoboTwin 不覆盖的两个维度。建议作为下一波 VLA 论文的标配真机 eval——比再刷 LIBERO 数有意义。Limitation 在 10K 这个规模其实仍然不够 cover diverse perturbation 空间，real-to-sim 同步在 contact-rich 任务上的对齐精度论文需要专门验证。

推荐指数：

Embodied AI Paper Reading

Thousand-GPU Embodied Training Recipe#

Ψ0\Psi_0Ψ0​#

TacVLA#

ST-VLA#

ForceVLA2#

OmniReset#

MolmoB0T#

OmniVTA#

VAMPO#

VP-VLA#

World Action Model vs VLA Robustness Study#

UniDex#

CaP-X#

VTAM#

MMaDA-VLA#

Fast-dVLA#

VLA-OPD#

Heracles#

ManipArena#

$\Psi_0$ #