Axi's Blog
Paper Reading: Embodied AI 11Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

Thousand-GPU Embodied Training Recipe#

Arxiv ID 2603.11101
幻觉翻译 2603.11101

把 GR00T-N1.5 训练时间从 15h 压到 22min 的千卡基建

这篇是工程报告,价值在系统优化的具体细节而不是算法。主要 stack:上层用 Ray 驱动的弹性数据湖 + Yunhai 高性能存储 + 3.2T RDMA 解 I/O 瓶颈(之前会造成 NCCL timeout);中层 variable-length FlashAttention 去掉 padding 浪费(188% 提速)+ data packing 把多样本塞同序列 + π₀.₅ 架构级改造(165%)+ FP8 block-wise 量化(140%);上层”RL-VLA3”三级异步把 env 交互 / trajectory 生成 / policy 更新解耦,吞吐再加 126%。在 GR00T-N1.5 上单轮训练 15h → 22min(40x)。

定位很清楚——把 LLM 训练社区已经成熟的工程套路(async pipeline、FP8、packing、FlashAttn)系统化搬到 VLA。算法侧没有新东西,但是大规模 VLA 训练社区里这种 end-to-end 的工程报告并不多见,做基建的可以直接当 cheat sheet。Limitation 也很坦白:128-256 卡之后 sublinear,通信开销吃掉收益,所以”千卡”在实际部署里更多是 marketing 词,真正能拿到的高效率区间还在几百卡量级。

推荐指数:

Ψ0\Psi_0#

Arxiv ID 2603.12263
幻觉翻译 2603.12263

Ego 视频预训 + 机器人后训 + AMO 底层控制的三层 Humanoid VLA

Ψ0\Psi_0 反对一个常见做法:把人类 ego 视频和真机数据 naive co-training,理由是两者运动学差距太大,混训会污染表示。它给出的解法是分段:先在 800 小时 EgoDex 上做 next-action 预训(48 DoF task space),再在 31 小时 Humanoid Everyday 上用 Flow Matching 做后训(36 DoF joint space),最后任务级 30 小时遥操作微调。System 上是三层:System-2 是冻结的 Qwen3-VL-2B、System-1 是约 500M 的 MM-DiT 作 Flow Matching action expert、System-0 是 AMO 下身 RL controller。论文 claim 用了大约 Pi-0 / Pi-0.5 一成的真机数据,成功率反而高 40%。

跟 Pi-0 / Pi-0.5 的关键差别有两点:用 MM-DiT 而不是普通 DiT 做 VL-action fusion、用训练期 RTC 而不是测试期 guidance 解推理延迟。整体属于 Humanoid VLA 里比较有自己技术取舍的工作。Limitation 论文坦白:算力卡死了进一步 scale 人类视频和真机数据,硬件 payload 限制更复杂的 manipulation 任务范围,所以”少数据多收益”这个 claim 在更大数据 / 任务规模下还没有验证。

推荐指数:

TacVLA#

Arxiv ID 2603.12665
幻觉翻译 2603.12665

紧凑触觉 token + 接触感知 gating 的 PaliGemma VLA

TacVLA 差异化在触觉表征:之前的 tactile-VLA 多把触觉当 image-like 输入(密集像素),TacVLA 把 15×8 触觉阵列用 MLP + 2D 位置编码压成 36 个紧凑 token,并加一个 contact-aware binary gating——只在检测到接触时才让触觉 token 参与 attention,否则直接 zero out。底模是 PaliGemma + Pi-0.5 风格 Flow Matching action expert,OpenPI 上 LoRA 微调 1 万步。

跟 EAI10 内已经覆盖的几篇触觉 VLA 比有清晰位置:FD-VLA 是不要真传感器、用蒸馏假装力 token;FAVLA 是双频 async + 力反馈直接进特征;UniForce 是跨传感器统一表征。TacVLA 的取舍是”真传感器、压缩到少 token、靠 gating 抑制无关信号”。Limitation 论文自己点出来很关键:binary threshold 是 hard heuristic,根本不是 learnable 的,gradually 调整模态重要性需要 learnable gating;以及触觉传感器空间分辨率低天然限制细粒度 contact 形状推理;并且只测短程接触任务。整体设计 OK,但是 binary gate 这一步的 hack 性质是后续工作要解决的明显问题。

推荐指数:

ST-VLA#

Arxiv ID 2603.13788
幻觉翻译 2603.13788

3D 轨迹 + 平滑空间 mask 作中间表示的层级 VLA

ST-VLA 的 motivation 比较明确:现有 hierarchical VLA 用 2D 轨迹或 mask 当中间表示,丢掉 3D 几何与时间连续性。它把中间表示升维到 4D(3D 轨迹 + 时间),核心两件事——把 2D guidance lift 到 3D path 并以 cylinder 围出 spatial tube;用 cross-modally aligned smooth mask 替代 hard mask 让 boundary 平滑,避免下游 policy feature 抖。架构是 Qwen3-VL-4B 微调成 ST-VLM 出 sub-instruction + 3D trajectory,下游接专用 3D policy(3DDA / 3DFA),数据集 ST-Human 30 万人类操作 episode、14 任务、4.3M 样本带 2D/3D/4D 多层标注。

跟 RT-Trajectory / Track2Act 这类 2D 轨迹方法比明显是个升维;跟纯 3D value map 比保留了显式时间结构。一个值得注意的设计是 smooth mask 可以和 vanilla policy 兼容、不需要每个 policy 重训,这让方法可以作为外挂中间层使用。Limitation 论文坦白:单视图 + 重度依赖 SAM2,clutter 场景里分割崩了整个流程就崩;扩 multi-view 还是 future work。整体在 hierarchical VLA 的中间表示设计上做得比较扎实。

推荐指数:

ForceVLA2#

Arxiv ID 2603.15169
幻觉翻译 2603.15169

Cross-Scale MoE + 力 prompt 引导任务分解的 hybrid 力位 VLA

ForceVLA2 是 ForceVLA 续作,关心的是把力从单纯感知输入升级为主动闭环控制信号。架构双层:长程层用 PaliGemma/SigLIP 接力 prompt 引导任务分解,短程层多模态 encoder 吃 6D pose + 6D 力,并且让力信号 bypass 上层 VLM fusion 直接进 reactive 通路;输出层是 Cross-Scale MoE 在 visual / state / force 专家间路由,最终走 Flow Matching 出关节位置-力联合命令 + subtask 进度。训练数据是用带力反馈的 GELLO 遥操作的 1000 条轨迹覆盖 5 个接触任务。

EAI10 这一卷里面力相关 VLA 多得有点扎堆:FD-VLA 直接蒸出假力 token 不要传感器、FAVLA 做双频 async + 力进特征、TacVLA 用 binary gating 控触觉 token、CompliantVLA-adaptor 在外面挂 VIC。ForceVLA2 的位置是”真力 + 力 bypass + MoE 路由”,这个 force-bypass 设计逻辑上是对的——力闭环就该绕开 VLM 的高延迟通路。但是论文没有 head-to-head 比这些同期力相关 VLA,只对到 π₀ / π₀.₅ / 自家 ForceVLA,66% vs 18% / 31% / 35%,所以”力为什么有用”被对比清楚了,“我和 FD-VLA / FAVLA 谁更好”是没回答的。Limitation 论文自己点出:力交互对摩擦 / 接触建模太敏感,仿真结果不可信,所有验证都是真机 1000 条轨迹规模——意味着这条路 reproducibility 一直是问题。

推荐指数:

OmniReset#

Arxiv ID 2603.15789
幻觉翻译 2603.15789

用多样化初始 state 分布替代 curriculum / demo 的暴力 RL

OmniReset 的赌注是”不用 curriculum、不用 demo、不用 per-task reward shaping,只要 reset 状态分布够多样、batch 够大、并行够暴力,dexterity 就会涌现”。具体做法是预先 sample 出覆盖 reaching / near-object contact / stable grasp / near-goal 四种交互模式的可行 reset 状态,缓存在 GPU 上,PPO + asymmetric actor-critic(actor 受限观测、critic 用特权信息)+ gSDE 探索噪声 + 任务无关的 sparse + dense reward 混合,超参跨任务全固定。最后用 student-teacher distillation 把 state-based expert 蒸到 RGB visuomotor 上(8 万条仿真轨迹 + 重 randomization)。

核心 insight 实际上是把 RL exploration 难题换成了 reset state 多样性问题,逻辑上说得通:训练分布只要覆盖 inference 时会遇到的状态,sparse reward 就能传得起来。Limitation 也很直接——整个 pipeline 依赖一个 grasp sampler 给出可行 reset,复杂非凸物体上 sampler 一崩整个 reset 分布就毁;以及 sim-to-real gap 大,Drawer Insertion 仿真 90% 真机只剩 15%,RGB student 也明显弱于 state expert。当作”如果有强仿真 + 强 grasp 采样 + 大算力”的暴力 RL 配方参考是合适的。

推荐指数:

MolmoB0T#

Arxiv ID 2603.16861
幻觉翻译 2603.16861

Molmo2 + 1.7M 纯合成数据零样本到真机的 VLA

MolmoBot 想直接挑战社区的”Sim-only 训不出 work 的真机 VLA”这个共识:放弃真机数据,全靠 MolmoBot-Engine 的程序化数据管线生成 170 万条合成轨迹,覆盖 9.4 万个程序化生成房屋 + 1.1 万个独立物体,重 domain randomization 但是不追求 photorealism,赌的是”环境多样性 >> 渲染真实度”。架构给了三档:MolmoBot 是 Molmo2-4B + DiT Flow Matching action head(cross-attn 接 VLM 中间 hidden state)、MolmoBot-Pi0 是相同结构但用 π₀ 拓扑做对照、MolmoBot-SPOC 是轻量 Transformer + 离散 quantile bin 动作,给端侧部署。

价值在于 zero-shot 真机的 claim 如果稳,这是对”必须真机大数据”主流路线的一次实质打击。Limitation 也写得直接:完全被仿真器能力卡死,只能做刚体 + articulated,contact-rich / 软体根本进不来——这恰好是 VLA 现在最在意的方向。所以这条路的现实定位是”在仿真器 cover 得到的任务范围内,多样性可以替代真机数据”,而不是”sim-only 解决一切”。

推荐指数:

OmniVTA#

Arxiv ID 2603.19201
幻觉翻译 2603.19201

21K 真机触觉数据 + 接触演化预测 + 60Hz 闭环的 visuo-tactile 框架

OmniVTA 押的不是 fancy fusion 而是数据规模 + 闭环:OmniViTac 数据集 21K 真机轨迹覆盖 86 任务 / 100+ 物体,架构四件套——自监督 tactile encoder、双流 contact 演化预测、接触感知 policy、60Hz tactile 反馈控制器。“world model” 的 framing 实际指 short-horizon next-contact rollout,policy 拿预测和实测残差驱动高频 corrector。

跟 EAI10/11 卷里堆起来的 FAVLA / TacVLA / FD-VLA / ForceVLA2 比,OmniVTA 的取舍不是”加一路力 token 进 VLM fusion”,而是把触觉做成独立的预测/反馈链路,VLM 路径和 tactile 路径异步运转。21K 真机数据规模在触觉这一档是大档位——比 TacVLA / ForceVLA2 都多一个数量级,作为后续触觉 VLA 的 pretraining corpus 是有用的。Limitation 在 “world model” 名字给得有点重,dual-stream prediction 实质是 short-horizon contact 预测不是 latent dynamics(和 Cosmos-Policy / GR00T-Dreams 不在同一档),以及 60Hz 控制器在 deployment 板子上的真实跑通量化论文没给。

推荐指数:

VAMPO#

Arxiv ID 2603.19370
幻觉翻译 2603.19370

把 GRPO 搬到 diffusion-based video action model 的后训方法

VAMPO 押的是把 LLM 后训那一套(GRPO)搬到 video action model 的 denoising 上。把多步 denoising 重写成 sequential decision,Euler Hybrid Sampler 只在第一步注入 stochasticity 让 policy gradient tractable 估,reward 用 expert 在 latent space 的 visual dynamics 当 verifiable signal——不是 adversarial、不是 likelihood,本质就是 GRPO 那套 group-relative。卡的是 video predictor 用 likelihood 训出来”plausible 但不精准”这个对 manipulation 致命的 objective mismatch。

定位上是 RDT2 / Cosmos-Policy / VPP 这条 video-as-action 路线的后训补丁。社区已经认了”video pretraining 给 robust prior 但不给精确控制”这个 trade-off,VAMPO 是第一批明确用 RL 后训去修这个 mismatch 的工作之一。值得跟踪的点:single-step stochastic 的 trick 在更长 horizon / 更高维 action 上是不是会 collapse、verifiable latent reward 跨任务 transfer 是不是稳。比 EAI11 里 OmniReset 那种”硬上 PPO + dense+sparse hybrid reward”干净——把 reward design 从 task shaping 转移到 representation similarity 上。

推荐指数:

VP-VLA#

Arxiv ID 2603.22003
幻觉翻译 2603.22003

把目标物体 / 终点 render 成 crosshair / bbox overlay 的 hierarchical VLA

VP-VLA 走 hierarchical 但中间表示选了一条比较取巧的路:System 2 Planner 解析指令、定位目标 / 终点,把空间锚点 render 成 crosshair / bounding box 直接画在观测图像上,下游 System 1 Controller 看着 overlay 后的图像执行;planner 训练时加 visual grounding aux loss。在 Robocasa-GR1-Tabletop / SimplerEnv 上对 QwenOFT、GR00T-N1.6 涨 5-8%。

跟 ST-VLA 是一对很好的对照组——同样是 hierarchical VLA 的中间表示选择,ST-VLA 把表示往 4D 升(3D 路径 + 平滑 mask)、VP-VLA 把表示往 controller 现成视觉接口靠(2D image overlay)。VP-VLA 的优势是不需要重训 controller、可以挂在 vanilla VLA 外面用;劣势就长在这个取舍上:crosshair / bbox 是 2D 投影,contact-rich / occlusion / 多物体场景能传的信息天然受限,遇到三维结构复杂的任务 information bottleneck 比 ST-VLA 严重。是个工程取舍合理但 ceiling 容易看见的设计。

推荐指数:

World Action Model vs VLA Robustness Study#

Arxiv ID 2603.22078
幻觉翻译 2603.22078

LIBERO-Plus / RoboTwin 2.0-Plus 上对 WAM 和 VLA 做扰动鲁棒性 controlled study

不是方法论文,是 controlled study:在 LIBERO-Plus 和 RoboTwin 2.0-Plus 上对 World Action Model(LingBot-VA、Cosmos-Policy)和 VLA(π₀.₅ 等)做 visual / language 扰动下的鲁棒性对比。结论是 WAM 普遍更鲁棒(LingBot-VA RoboTwin 2.0-Plus 74.2%、Cosmos-Policy LIBERO-Plus 82.2%),VLA 想追平需要更大、更杂的 robotic 数据;混合 video prior 的 hybrid 方案落在中间。

价值在把社区里口口相传的”video pretraining 给鲁棒 representation”做成 controlled comparison,给后续 VLA / WAM 选型时一个可以引的数据点。和 EAI 系列里 RDT2 / Cosmos-Policy / VPP 的发展路径相互佐证——video prior 主要 buy 的是 robustness 不是 task fitting。论文本身没新方法,但作为后续工作里 motivation / related work 的 benchmark 引用是合理的,不该被当方法论文读。

推荐指数:

UniDex#

Arxiv ID 2603.22264
幻觉翻译 2603.22264

50K + 8 dexterous hand 的 cross-embodiment dataset + FAAS 共享动作空间

UniDex 是 dexterous 这一支的 dataset + foundation 套件(CVPR 2026 接收):50K+ 轨迹覆盖 8 种 dexterous hand(6-24 DoF),来源是 ego 视频 + human-in-the-loop retargeting 转成机器人轨迹,关键 abstraction 是 Function-Actuator-Aligned Space (FAAS)——不指望关节角度对齐,只指望”功能”对齐(指尖 pinch 对 pinch、palm 对 palm)。policy 是 3D pointcloud(mask 掉人手)输入的 VLA,配套 UniDex-Cap 是便携 RGB-D + 手姿采集站。报 81% 平均 task progress 在 tool-use 上。

定位是 EgoDex / DexMimicGen / Open-Television 一支的延伸,但 FAAS 这层 abstraction 是这条路里少见认真做 cross-embodiment 的:之前的 retargeting 多停留在 fingertip pose,UniDex 把 functional alignment 做成 explicit 共享空间,理论上能让 policy 跨手 transfer。和 Ψ0\Psi_0 用 EgoDex 800h 直接预训 humanoid 的路线对照——一个押 humanoid full-body retargeting,一个押手部 functional retargeting,都在解 “real robot data 太贵”。Limitation 是 human-in-the-loop retargeting 这一步 不 scale,hand-object contact plausibility 在复杂物体上的保持精度论文也没量化——这是后续工作要补的硬骨头。

推荐指数:

CaP-X#

Arxiv ID 2603.22435
幻觉翻译 2603.22435

Code-as-Policies 范式的系统化 audit + RL 强化

CaP-X 不是新 VLA,是把 Code-as-Policies 这条 2022 年的老路线在 LLM 强化的 2026 重新做 audit:CaP-Gym 仿真环境 + CaP-Bench 任务集 + 12 个 frontier VLM 横评 + CaP-Agent0(training-free baseline,靠 multi-turn / structured execution feedback / visual differencing / 自动 skill 合成 / ensemble reasoning 把 reliability 推到 human-level)+ CaP-RL(verifiable reward)。核心结论:code-as-policy 性能高度依赖人类预先抽象出来的 perception/control primitive,往 raw primitive 退一步 reliability 显著掉。

读完的实质 take 挺残酷:方向上证伪了”frontier VLM 直接出可执行 code 操作机器人”这种 demo-friendly narrative。CaP-Agent0 那一堆 trick(multi-turn、execution feedback、visual diff、ensemble)能把 reliability 推上去,但本质上这些 trick 是在替代被去掉的 designer scaffold——code agent 的 ceiling 在那里没动。这种系统化 audit 类工作比单点 demo 论文更有 reference value,看了之后能直接干掉一类 “VLM-as-controller” 的 baseline 假设。

推荐指数:

VTAM#

Arxiv ID 2603.23481
幻觉翻译 2603.23481

video transformer + tactile retrofit,无需 paired tactile-language 数据

VTAM 路线和 EAI11 里几篇触觉 VLA 不一样:不从 PaliGemma + Pi-0.5 加 force token 开始,而是从预训 video transformer 开始,用 lightweight modality transfer finetuning 把 tactile 流加进来;为了防止 visual latent 主导 cross-modal attention,加 tactile regularization loss 强制 attention balance。卖点是不需要 paired tactile-language 数据。报 90% 接触富任务成功率、potato chip pick-and-place 比 π₀.₅ 高 80%。

跟 TacVLA(紧凑 token + binary gating)、FAVLA(双频 async)、ForceVLA2(Cross-Scale MoE + 力 bypass)三条路对照,VTAM 押的是”video prior 比 VLM prior 更适合作为触觉 retrofit 的底座”。potato chip vs π₀.₅ 是这卷里少见的直接 head-to-head 数据点。Limitation 跟 TacVLA 是同病——tactile regularization 是手工的 cross-modal balance constraint,不是 learnable 的 modality importance;且和同期触觉 VLA 之间没 controlled comparison,“video 底座 vs VLM 底座”哪个真更好这卷还是没定论。

推荐指数:

MMaDA-VLA#

Arxiv ID 2603.25406
幻觉翻译 2603.25406

把 language / image / action 全部 tokenize 进 discrete diffusion 的统一 VLA

MMaDA-VLA 把 unified discrete tokenizer 这条路(LWM / Show-o / Unified-IO)真正在 VLA 上做出来:text 走 LLaDA tokenizer、image 走 MAGVIT-v2、action 每维 256 bin 离散化,single backbone + masked token denoising 一次性 parallel 生成 future goal observation 和 action chunk,inference 时 iterative denoise 加 confidence-based remask,做 order-free refinement。LIBERO 98% / CALVIN 4.78 是这一卷顶部档位。

意义在于把 VLA 的范式从 hierarchical(System2+System1)和 autoregressive(RT-2 / OpenVLA / GR00T)两条主流加了第三条 unified discrete diffusion。卖点不是新 architecture 而是新 token space——language、vision、action 在一个空间里 jointly denoise,长 horizon 一致性可以靠全局 refinement 修,不像 AR 那样一旦犯错就传到底。配 Fast-dVLA 那一类 inference 加速看才完整:discrete diffusion 的 denoising 步数代价是这条路的天花板。如果 Fast-dVLA 那种工作能把 inference 推到 30Hz,MMaDA-VLA 这条路就有真实部署可能。

推荐指数:

Fast-dVLA#

Arxiv ID 2603.25661
幻觉翻译 2603.25661

block-wise KV cache + diffusion forcing + asymmetric distillation 把 dVLA 推到实时

Fast-dVLA 是 MMaDA-VLA 的配套加速工作:discrete diffusion VLA 的 inference 受 denoising 步数拖累远低于 30Hz 实时门槛。三件套——block-wise sequential generation 拿到 KV cache 复用、diffusion forcing 让后续 block 不用等前 block 完成 denoise(多 block parallel decode 不同 noise level)、asymmetric distillation 从已经训好的 dVLA 蒸到加速版。报 2.8-4.1× speedup 不掉点。

定位非常清楚:discrete diffusion VLA 这条路(MMaDA-VLA、LLaDA-style)的最大 deployment 障碍就是 inference cost,Fast-dVLA 把 LLM 那边已经成熟的 speculative decoding / KV cache / block parallel 那一套整体搬过来。和 RTC(test-time guidance)、Ψ0\Psi_0 的训练期 RTC 不是一类——那两条是 single-step 的 control-loop trick,Fast-dVLA 是 generation-loop 的真算力优化。一个 path 的 verdict:discrete diffusion VLA 想从 LIBERO benchmark 走到真机 30Hz,必须有 Fast-dVLA 这一档工作。

推荐指数:

VLA-OPD#

Arxiv ID 2603.26666
幻觉翻译 2603.26666

expert teacher 在 student on-policy trajectory 上做 dense token-level 蒸馏的 VLA 后训

VLA-OPD 是把 LLM 后训那一套 on-policy distillation(GKD / DistillBC 之类)搬到 VLA:不要环境 reward,让 expert teacher 在 student 自生成 trajectory 上做 dense token-level 监督,关键设计在 KL 形态选择——Reverse-KL 取 mode-seeking 避开 Forward-KL 的 mode-cover 和 Hard-CE 的 entropy collapse,filter epistemic uncertainty。LIBERO + RoboTwin 2.0 上验证。

本质是用 teacher 替 reward function 解 RL 的 sample efficiency 问题,又用 on-policy student trajectory 解 SFT 的 distribution shift 问题,是一个 LLM 训练社区已经验证的范式被 VLA 抄过来。比起 ForceVLA2 / OmniReset 那种”硬上 PPO + asymmetric AC + dense reward shaping”的 RL 路线,VLA-OPD 对 reward design 不敏感,更适合 long-horizon。问题在赌 expert teacher 的 quality——teacher 弱 student 学不动,teacher 强又得先有 teacher,所以 chicken-and-egg 这一关在 VLA 里比 LLM 棘手(LLM 有 GPT-4 当 teacher,VLA 没有公认的 universal 强 teacher)。是个范式正确但 deployment 上要先解决”哪儿来的 teacher”的工作。

推荐指数:

Heracles#

Arxiv ID 2603.27756
幻觉翻译 2603.27756

state-conditioned diffusion 当 humanoid reference tracking 和 physics tracker 之间的 middleware

Heracles 在 humanoid control 上的设计取舍:把 diffusion 不当生成器、当 controller 中间层。state-conditioned diffusion 夹在 reference motion 和 physics tracker 之间,状态正常时退化成 identity map 保 tracking fidelity、状态显著偏离时切到 generative recovery 合成一段 anthropomorphic 恢复轨迹再回到参考。

和 EAI 之前的 AMO / OmniH2O / ExBody 这种纯 RL tracking 路线明显分流。卖点其实就一个 insight:把”rigid tracking + 故障 fall over”升级成”tracking + diffusion 兜底”,把 motion prior 当 fail-safe。Ψ0\Psi_0 用 AMO 当 System-0 走 RL 路线,Heracles 这种 diffusion-as-middleware 是另一条解法,能不能跟 humanoid VLA stack(Ψ0\Psi_0 类)集成是后续看点。Limitation 在实时性——humanoid control 要 50Hz+,diffusion 哪怕 1-step 也有 latency;论文需要 deployment frequency 的硬数据才能区分这是 paper-only 还是真能上机。

推荐指数:

ManipArena#

Arxiv ID 2603.28545
幻觉翻译 2603.28545

10K trajectory + long-horizon mobile manipulation + real-to-sim 对齐的真机 benchmark

ManipArena 是个真机 benchmark:20 任务 / 10812 expert trajectory / 多机器人平台 / long-horizon mobile manipulation / 含 motor 信号的 sensory diagnostics / 用高质量 3D 扫描做 real-to-sim 同步环境对齐。focus 在 reasoning-oriented generalist manipulation 而不是单点 skill。

跟 LIBERO / RoboTwin / RoboCasa 这一档 sim benchmark 比,ManipArena 的关键卖点是真机 + real-to-sim 对齐——“sim 通过但真机翻车”这个 VLA 落地老问题,需要这种同步环境才能 disentangle。10K trajectory 在真机 benchmark 里算大档位(比 BRIDGE-V2 量级低、比纯单点 demo 高),long-horizon mobile manipulation + motor signal diagnostics 是 LIBERO / RoboTwin 不覆盖的两个维度。建议作为下一波 VLA 论文的标配真机 eval——比再刷 LIBERO 数有意义。Limitation 在 10K 这个规模其实仍然不够 cover diverse perturbation 空间,real-to-sim 同步在 contact-rich 任务上的对齐精度论文需要专门验证。

推荐指数:
Paper Reading: Embodied AI 11
https://axi404.top/blog/paper-reading-eai11
Author 阿汐
Published at May 6, 2026
Comment seems to stuck. Try to refresh?✨