

月记·二零二五·九月
2025-09-01 ~ 2025-09-30.
月记
前言#
太长时间的周记没有及时更新,包括过去的周记也包括了很多的废话,我不禁开始思考是否因为过短时间就需要进行一次总结而导致内容逐渐缩水。
伴随着在科研内容中的不断深入,我的生活开始失去多样性,每次在周记中可以记录的内容也就越来越少。对于科研来说,因为长期有一些项目正在进行,也不太方便直接在博客中进行描述。毕竟尽管我自己很想进行所谓「开源」的研究,但是大多数时候这些项目都和别人息息相关,也就自然需要保密一二。
在各种内容的叠加之下,我依旧逐渐开始只能每周只记下一些很少的内容,从而也就降低了博客的平均质量。综上来说,总体想一想,还是决定将周记变为月记,每个月更新一次,这样至少可以出现一些相对大一些的 milestone,一些我自己在其中的感悟也可以比较成篇幅的写出来。
保研季#
要说九月份最重要的事情,其实还是保研。也算是大学前三年一段时间努力的一个收尾。不过讲实话,最后的去向也没有什么出乎意料的事情,就是前往了一直以来心心念念的上海人工智能实验室进行联培。
其实早在大二的时候,当时我中稿了 ECCV,就在为下一步进行打算,一个选择自然是比较正常的,比如说前往清北或者香港,但是由于之前留下的比较好的印象,前往上海人工智能实验室还是成为了我的首选。
这件事情最早在我的保研经验贴里面其实写了不少,我在大一下的时候就从学长的口中听说 SHAILAB 的大名,那时候算是实验室最辉煌的时候,Hongyang Li 在 CVPR2023 斩获 Best Paper,实验室本身的在那时候也可以说是很足。当时还没有大厂若干的人才计划的攻势,对于大多数的研究生补贴只有一个月几百块来说,实验室的补贴据说可以一天三百,还有单人间的宿舍,可以说是相当的诱人。当然后续也是实验室的工作具有吸引力,因此还是选择了这边作为我大三时候实习的目标。
对于我这种层次的保研选手来说,最佳选项只有一次机会。相较于比如说去香港或者出国,其实多出来了大四的一年时间来进行科研、申请以及实习,正常的保研流程,其实在大四开学的时候就已经确认的去向。因为本身还是长线的科研向,所以说本身选择还是面向于选择某个课题组,而不是某一个学院或者学校,因此最好还是在大三的时候就可以在这个课题组里面一直实习,并且可以有更多的产出。
一年的时间从适应到发表自己的新论文,可以说是刚刚好;而假如说花费半年的时间来完成一个课题,获得推荐并且前往新的课题组,说实话,那时候和我竞争的可能就是同样有能力在 top 组并且已经实习了半年时间的其他同学了,这样来看还是前者好一些。好消息是,大二时候的顶会中稿可以让我有相当大的选择空间,在当时的 OpenDriveLab 以及 OpenRobotLab 里面进行了抉择之后,我选择了加入 OpenRobotLab,也就是后续重构的具身智能中心,大老板是 Jiangmiao Pang。
一直以来,实验室这边的 mentor 可以说是对我有知遇之恩,伦哥可以说在 Project 上面有着相当不错的直觉,虽然有的时候容易发散,但是在讨论中未尝不是一件好事。这段时间以来的相处也算是磨合得非常不错了。与此同时确实这边的实验室可以提供,除了进入大厂实习之外最多的算力,只要 mentor 可以扛住一些压力,组里的进展都还算顺利,自己进行自由的科研,相对来说空间也很大。
在 core contribute 到主线的情况下,这边我可以轻易调用百卡级别的算力,相较于其他的高校实验室,确实已经好上无数倍了。加上其他组的 mentor 其实和我的关系也算是很不错,所以说我还是没有尝试接触其他实验室,直接就 all in 这边了。在六月份前往 SHAILAB 进行线下的夏令营,然后在七月份前往 SJTU 进行联培的另一次考核,基本上都是一路绿灯。
虽然说并没有什么动用黑幕(按理来说我的 BG 在常规保研里面可以说还是很能打的了,可能面对最 top 的一批同学还是稍显逊色,但是对于正常人来说还是可以显著拉开差距的),但是也是十分顺利。本身 SHAILAB 的夏令营纯机试也是自己 Batch 的 Top1,并且 SJTU 入营就优营。
剩下的内容其实就不算是很多了,实验室这边负责对接的老师会提醒我去提交一些材料,基本上东西给到我,然后临近 DDL 也会有提醒,所以这部分基本上没有费什么时间。在九月末的时候填写了一下系统,之后就顺利录取了。

和保研相关的另外一件事应该就是绿群了,也就是计算机保研交流群。这里给不太了解的朋友们介绍一下,绿群其实本身是建立在 QQ 群基础上的公益组织,也就是一帮保研的同学在里面进行信息分享,当然更多的也有各种水群。
事实上我在入学之后交到的第一批网友就是来自于绿群,而且保研的大家其实相对来说目标都比较一致,也就是去往比较较好的学校,并且进行一段时间的科研,使得后续的共同话题也很多。
目前我们可以说绿群是全国范围内最大的保研交流群,一共包括一个三千人群以及三个两千人群。其实按理来说换成别的什么组织,这个时候就应该在免费的基础上增加一些付费的辅导之类的内容,不过事实上我们并没有任何相关的事情,这也是为什么我可以很笃定地说我们是公益组织的原因。
每一年这些维护的费用都是在一年一度的赞助以及管理员自发提供的。而在日常的群中进行咨询和聊天之外,我们的 CS-BAOYAN-DDL 提供了不少的夏令营信息,而同时我们也可以让各个课题组免费发布招生公告。
回到正题,在这最后一个月,自然也就是保研招生信息最密集的一个月,神秘大佬完成了 DDL 里面数据库的绝大多数内容更新,我只是一个无情的审核机器。这项我创办的项目在志同道合的朋友们的支持下完成了一年又一年的维护,只能说确实相较于大多数的学校内部的环境来说,保研er作为下一道筛选,值得具有开源精神的人稍微更多了一些,让开源项目拥有了健康的维护者数量。
因此 925 的时候,认识的朋友们都有了去处,还是感慨万千。
对于一个曾经自诩为高考失利的人来说,早已经放下了对于清北的执着,一路上的事情塑造了我之所以为我,也使得曾经在我看来应当是一段旅程的终点的保研,其实是在忙碌中悄无声息过去的,化作了更加长远的路的一小步。
进一步的科研#
这一个月的主旋律其实还是以科研为主。自上个月一直在 IROS Challenge 中各种打工之后,这个月开始给之前欠下的 InternVLA-M1 ↗ 收尾。
M1 其实算是 WAIC 期间需要去 release 的工作,但是确实是因为各种的工期以及模型效果的原因,再加上需要更多的实验来佐证模型的效果,所以说拖了很久,到此时此刻才开始进一步的修缮。
技术报告在当下来看确实是大于一般的论文的,即使是中稿的论文。作为 core-contributor 来说,其实一方面这证明了你在大型项目中可以进行足够的贡献,在更大规模的训练以及更多循环的迭代中获得更多的 insight;另一方面,确实大多数论文都是相当 incremental 的内容,而并没有本质的方法,工业的经验反而更有价值,且可以说明你的 engineering 能力。
我比较愿意提及的是一个「不可能三角」,对于一个研究人员来说,「忠诚、勤劳、有能力」三者很难兼备。这其中的忠诚即可以安心在另外的 mentor 手下做别人的课题,对于勤劳且有能力的人来说,一般来说肯定是不缺 idea 的,那么肯定也会更想做自己的 idea。Tech report 是少数可以将这些勤劳有能力的人汇聚在一起进行更大的项目的方法,毕竟其本身就是在做更本质的事情,迭代 data centric 视角的 insight,并且从结果而非论文角度的创新性来训练 simple yet effective 的模型。
在这一次的技术报告里面,除了主要写了一些文字之外,也是主动承担下来了绝大多数的画图以及视频/网页的任务。功利一些说,锻炼自己的这些能力绝对是有用的,至少可以凭借自己之前 polish presentation 的经历来混各种项目,毕竟相对来说拥有很好的画图能力的人还是在少数。
回想自己上一篇完全自己画图的论文还是在上一个组里面最后放掉的 ICLR 投稿论文,那时候的画图可以说还是十分的稚嫩,而这一次在进行了反复的打磨以及思考之后,居然可以自己画出来被别人认为非常好看的图,可以说还是很有成就感的。至于网页,可以说是我的传统强项了,在大多数人其实都不了解前端框架的科研圈,要不然也只是在用 vibe coding 基于 html 来修改,使用 astro 之类的来搭建 landing page 并且 vibe 出来还算不错的效果,可以说是轻而易举了。视频则是使用 PPT,熟练使用之后,PPT 其实可以用出来剪映之类的效果,而且对于文字排版之类的也更加可控,想来还是很神奇的。

InternVLA-M1 的技术报告也是在具身智能中心的开源周上顺利发布了,在之后的一段时间后都有着相当多的关注度,可以说算是很不错的工作了。
总体来说,其实 M1 研究了一个相当本质的问题,并且提供了很好用的 Codebase,这个问题就是 co-training。对于 VLA 来说,老生常谈的问题是,我们难以找到 A 的 semantic 表征,因此也就很难像之前 VLM 一样,先直接将 V 对齐到 semantic space 之后先迎来 GPT 时刻,然后再在数据和结构上慢慢打磨。而假如说将 VL 和 A 分开来看,那么一个问题显然是如何 leverage VL to A,或者至少让它们之间协同优化,而这一技巧自然就是 co-training。
当然,co-training 的另一个好处就是在即使不能 transfer 的情况下依然保持 VLM 的能力,并且相对来说尽可能更多地 leverage 更多数据,这也是从第一性原理出发的显然结果。
在技术报告之余,另外和科研相关的也就是两件事了。第一件是基于技术报告的内容投稿了 ICLR,不过出于双盲还是不透露更多的信息了;第二件则是继续 polish GenManip。
在 M1 之后,从模型的迭代出发,一个显然的事情是,其实大多数的论文本质上并不需要太多的公平性比较,甚至比如说,和大量的模型进行比较。这有可能是一直以来 Robotics 领域的习惯,当然确实一般也是如此,我们并没有必要和一个可能低于我们二十个点的模型比较,而是只需要挑选目前最为火热的两三个模型,在真机进行比较就好了。
一方面目前已有的仿真都是所谓的 general leaderboard,也就很难在测试中有所 highlight,而内容其实又相当 narrow,让人没有很多测试的欲望;另一方面,自己搭建一个仿真 Benchmark 又太困难。那么为什么不在真机直接摆一摆就完事了?那么仿真 Benchmark 的意义何在。
在进行了迭代和思考之后,我认为有两个点 large scale 和框架。在减少 single case 的 episode 数量的情况下,仿真可以 cross 更多的物体以及任务,这需要更多的 hand-crafted 时间开销,但是同时又是仿真少有的优势,毕竟真机很难找到几千个物体来测试模型的泛化能力;另一方面,假如说迭代成型的框架可以便于社区设计自己的 Benchmark,这自然也是大功一件。GenManip 恰好二者兼有,因此还是需要更好 Polish 一下。
生活琐事#
这个月剩下的一些事情其实也就是生活上的了。
关于和乐小姐一起的生活,确实不太能透露太多,不然她肯定会佯怒向我抗议。不过在许久未见之后,确实恋人的关系还是巩固了更多,而且向一种有趣的关系转变了~和乐小姐一起的时间总是快乐的。
另一件值得一提的事情,还是之前去这一届的百团大战逛了逛。其实细想来,因为各种的琐事,所以这一次似乎是第二次在这里花费半天时间四处看一看,而上一次远在三年之前。大多数学生其实都不是内卷的氛围,空气中还是活泼明媚的气息,想当初三年以前,当时我还在轻音音乐社,和一帮当时的好朋友在社办玩桌游,然后各种推销自己的社团,不知觉间距离那时候已经过了很久,感慨万千。
结语#
总的来说,这一次的月记算是实验性质的第一次。假如顺利的话,之后会逐渐把之前的周记转化为月记持续更新回来,并且将目前的每个月实时更新。属于是前向且后向了,这样子健康些。
祝大家开心。