周记 Week60 • Axi's Blog

所以说，又是很久以后的一次周记了，甚至这次隔了两周还要更多，本身当然是因为一些各种各样的事情耽误了，不过从侧面也体现出了事态并没有变得更加简单，而且变得更加复杂了。

只能说历史频繁会给我这个教训，每次我总是认为过一段时间之后就可以闲下来，但是却总又会有其他事情需要去做，我认为这某种程度上是一个态度的问题，也就是当你闲下去的时候，你是不是会相对“游手好闲”想要加入到其他事情中，还是说呆在原地沉淀一段时间，并且开始下一段旅程。

具身智能是一个要求工程能力很强的学科，从另一个角度来说，就意味着这个领域对于工程开发的量级较大，也就意味着一个 idea 转化成代码、项目或者论文，所需要花费的时间越长，就意味着具有相同思维活跃度的研究者，具身智能领域的人总是有更多做不完的 idea。因此在刚刚完成 IROS Benchmark 之后，不可避免的一件事情就是我会想要继续去做下一件我认为必要的事情，而依然没有再次闲下来。

科研#

在上个年度结束之后，近期时间是即将迎来下一次的结构调整，具体内容出于保密不能透露，但是可以预见的是，我做的部分内容后续可能很难作为主要内容去推动，或者至少在一段时间之后才可以再次找到一线生机，使得我开始思考应该何去何从。

仿真是有局限性的，这是在进行了大量的时间之后，我可以得出的一个结论，除非某些基于 RL 的范式可以根据很简单的奖励函数收集到稳定的数据，否则在 dense reward 仍未被解决的当下，使用强化学习来生成大量多样的高质量数据，基本上是不可能的。

使用 rule based 的方法生成数据，我确信我已经找到了 scalable 的边界，在边界的里面，开发者可以使用一套精心设计的规则来适配足够大量的物体，其中主要以操作刚体以及一自由度articulation 物体为主，在 AIGC 的加持下，这些类型的数据可以源源不断地生成，并且这些技能已经被定义好后，可以让大模型通过函数调用的方式来生成更加 make sense 的数据，从而产生更多样的任务，这些是没有任何问题的。

GenManip 在经过了漫长的开发之后，已经几乎达到了这一标准，并且我也在短时间内没有向流体以及软体仿真（倒水和叠衣服）发展的想法，假如没有对内的保密要求存在，那么进行完善的代码清理以及文档撰写之后，将其彻底开源是一个更好的选择，同时借助一些 PR 的渠道，整体代码会变得相当可用，也可能会具有一定的影响力。

在大量生产数据的基础上，GenManip 对于闭环验证的优雅把控也是可圈可点的，通过完善的设置来让整个框架可以以低代码的形式让用户想要自己搭建的 Benchmark，不需要对整体代码逻辑有任何了解，这也是很不错的。

当然还包括了一系列的思考，事实上伴随着真机数据越来越多，仿真数据的必要性可能会越来越低，甚至在最后因为和现实的 gap 而成为噪声一样的数据，包括目前的仿真也越来越难有人去刷，大家目前集中在 simpler env，尽管我非常欣赏这篇工作，但是本身在询问了同学们之后，感觉还是点刷不上去的原因集中在引入了 real2sim 的 gap，不然从任务难度上来说，不应该成功率如此之低。为什么没有一个新的仿生平台脱颖而出？一方面对于一些所谓现在流行的 reasoning 能力，GenManip IROS Benchmark 也从这个视角出发，但是在比赛中上尚且可以，假如是平时使用，为什么不用对于审稿人也更有说服力的真机实验来做呢？有什么事情是仿真能做到反而真机做不到，我目前有一些初步的想法，后续 GenManip 假如说谈妥可以完全开源，会以 tech report 的形式发布 1.5 版本，大家可以期待。

最后就是最近开始写我们组的技术报告了，我基本上还是像之前一样提供了仿真平台以对应的数据，不过还是尽量能帮一些忙就多做一些，其他同学对于真机测试的压力力也很大，在论文写作以及绘图上，我就可以做一些努力了。只能说我的画图还在锻炼过程中，希望经过这一次之后可以获得更多的进步。

生活#

生活上就几乎没有什么可以说的了，还是和乐小姐每天打电话聊天，然后每天都坚持上班，甚至因为要赶一些成果出来，这周末的两天都和 mentor 一起在实验室加班。周日下班之后出门，我们两个人都顺手打开了飞书，想要打卡下班，但是飞书却弹出了极速上班打卡的提示，原来已经四点了。