

随着 CVPR 投稿落下帷幕,补充材料也已提交完毕,阶段性的科研旅程暂时划上了一个逗号。此刻,我终于抽出一点空闲,来回顾这段久违的大二生活。
前路茫茫#
大一的节奏堪称繁忙,而在踏入大二后,我的个人能力已和入学之初不可同日而语。不仅掌握了多种编程语言,还亲历并推动了 RM 这样中等体量的工程项目,同时在机器学习与深度学习的知识体系上也构建起了初步的轮廓,读完了数本经典教材,也啃下了约五十篇相关论文。
是 WJH 学长将我引入了绿群,从此我开启了一段新的“水群”旅程。但这一次,我不再是单纯的热闹参与者,而是一个开始明确人生方向的探索者。经过一段时间的论文阅读与与人交谈,我对自己未来的意图愈发清晰:我喜欢科研,并愿意以学术作为主线,将它作为通往未来的第一路径。简单来说,我的目标是在本科阶段完成研究成果,并以此作为进入清北华五级别 PhD 项目的通行证。
在向几位学长简要请教后,我迅速做出了决定——选择加入周三平老师的课题组,作为自己科研生涯的起点。
讲真,这个选择既是理性,也带着一丝赌性。当时的我其实曾对计算机图形学非常感兴趣,曾抽空看过 Games101,但现实不允许我将一切兴趣逐一追逐。我必须选择那个既有趣、又具发展潜力的方向。而在西交人工智能学院中,图形学研究资源有限,而我对计算机学院的了解也不够,因此选择了放弃。
经过学长推荐,我挑选了人机所中几位有潜力的导师,并发去了邮件。周老师迅速回复了我,而另一位老师则音讯全无(后来有同学在班主任搭桥后加入该课题组,结果却是整天做标注数据的杂务,不禁让我暗自庆幸自己选对了方向)。
其实那时的我仍然忐忑,不知自己是否有资格“正式科研”。所以等到奖学金排名公布、自信多了一分后,我才鼓起勇气发出邮件——那已是十月初了。
周老师约我面谈,我们简短交流了兴趣方向,他告诉我,目前组里并未主攻我感兴趣的图像生成领域,但可以与两位大三的学长一起参与医学影像的半监督学习课题。虽不是我最感兴趣的领域,但我还是欣然接受了。老师随后发给我一篇论文,安排我与两位师兄组队阅读、讨论。
RM 组长#
科研的线索暂时告一段落,让我们把镜头切回到 RM 这边——一条早已交织进我大学主线的路径。
如同上一章所述,我在大一成功转正后,成为了视觉组组长,也承担了新一届的招新与培训工作。关于比赛本身的部分已另作详述,在这里,我更想讲讲与比赛无关的“人”的故事。
为了提高培训效率,我不再采用以往那种“知识点填鸭+任务应试”的方式,而是用心准备了一整套连贯的视频课程,将基础知识与实际项目结合,用更系统的方式推进训练。
与此同时,我一如既往地活跃在新生群里。在那段时间里,我加了不少新同学的好友,也和几位后来在他们年级中影响力不小的人物聊过天,借机宣传 RM,并招募他们加入视觉组。
这一届的招新,我承认是“偏温和”的。考核压力不大,最终留下的人不少,甚至有部分后来缺乏持续任务导致热情下降,但这已是后话。
其中印象最深的是两位成员:同级的 LXW 和下一届的学弟 QZZ。
QZZ 是我迄今为止在西交遇到最具科研天赋的学弟。在他大一下时便加入课题组,参与多个项目,科研能力突飞猛进。只可惜他在“主动争取主导权”这一点上略显保守,导致至今仍未完全展开属于自己的主线工作。在西交这种节奏里,做出成果已属不易,想要“发表”更是难上加难,假如缺乏自我推动力,这样的才华可能真的会被埋没。
至于 LXW,他是一位具备工程能力、热爱技术但缺乏学术野心的朋友。我推荐他来 RM 参加比赛,希望通过技术积累帮他获得一些加分。在我心中他一直是“可以信赖的朋友之一”,但人际交往上仍有些小摩擦:他偶尔会不打招呼地用我的电脑、吃我的零食,这些虽非大错,但却让我心里有些别扭。人与人之间总是这样,有些裂缝,虽不会断裂,但却始终存在。
我在社团里一向不是那种“强势领导者”的形象,而更像一个“亲民”的协调者。这样的风格虽然有助于营造融洽氛围,但也使得一些同学在完成任务上的积极性不高。不过最终,视觉组的整体工作还是顺利推进了,大多数目标都达成了,尽管表现未及预期,但至少,我尽了全力。
科研之二#
回到科研这条主线。大二这一年,除了课程之外,我的生活大致被两件事占据——RM 以及科研。社交圈开始有意识地收缩,大部分时间都只与乐小姐相处,其余交流多发生在绿群里,渐渐构建起一种“数字社交”的舒适区。
周老师给我的第一篇论文是 MCF(Mutual Correction Framework for Semi-Supervised Medical Image Segmentation)。尽管此前我已有一些项目经验,但这却是我第一次正式参与科研工作。收到论文的第二天,我便下载数据集,开始复现实验流程,熟悉代码结构,也尝试推理其背后的思路。
MCF 主要借由两个模型之间伪标签差异来实现半监督训练,而这套机制最棘手的问题,就是“差异性”的消失。两个模型在共同的损失函数约束下,很容易趋同,从而让整个半监督体系失效。
我当时直觉地想到一个方法——引入 Mean Teacher 框架。设计上,我保留了原有的双模型结构,额外附加两个教师模型,仅用于生成伪标签,参与推理但不更新参数。这种方法倒也有一丝可解释性,两个 Mean Teacher 就像大厦的风阻尼器,让协同训练框架下的两个模型不会过快趋同。实验效果一试便成,指标超过当前 SOTA,但问题也显而易见:方法过于工程堆叠,缺乏创新性,逻辑简单,难以撑起一篇顶会论文的框架。
真正的转机,出现在某次组会上。我突发奇想,思考能否不依赖模型结构、损失函数,而以某种“外部属性”来打破性能的不均衡?MCF 中存在一个设计:在训练时评估两个模型在有监督数据上的表现,并让性能较好的模型担任“教师”,提供伪标签。这看似合理,实则有潜藏风险:假如模型结构天然存在差异——如性能强弱模型混搭——便会造成某一模型始终无法有效利用无监督数据,甚至逐步沦为“哑巴学生”。
那么,是否存在一种不依赖模型复杂度,却能动态调节性能的方法?答案是“训练轮次”。我设计了一种交替训练的机制,让两个模型轮流更新,各自拥有不同程度的“成熟度”,实现了教师之间的平衡切换。这一框架被我命名为 Progressive Mean Teacher。
在构建好基础框架后,我进行了首次完整实验,在公开数据集上直接超过了当前最优结果两个点。
这距离我正式开始科研不过两周多一点,而距离 CVPR 截稿还有四周。
我总是喜欢做很大的梦。于是,找老师沟通,决定投稿。
论文初稿由我撰写,结构参考 MCF。开篇便对其方法进行反驳,继而提出我方改进,并列举三项贡献点。这个写法虽然沿袭了 MCF 的结构,但逻辑过于“攻击性”,缺乏顶层设计,老师光速否决。
在老师的指点下,我开始重构论文思路。弃用“驳斥式”的写法,改为“顺势铺陈”:先提出领域问题,介绍已有方法,然后自然引出我们的设计。老师强调的写作准则之一便是——不要暴露你“思考的过程”,而要让方法看起来就像是“理所当然地这么做了”。这是一种自上而下的表达方式,尽管“虚构”,但它让科研故事更具“可信感”。
随后,我进行了密集的实验补充,跑遍了主流方法,重测、对齐 batch size 与划分方式,并且将 MCF 的一些 trick 适配到我们的方法中。最终投出 CVPR。
结果是:311,落选。
审稿意见大致一致:一是怀疑我方法与 MCF 差异不足,二是质疑结果可信度。我虽采用统一评估方法,但因为复现使用了 MCF 的 K 折划分,而此前的多数工作采用的是单一划分,这无意间造成了显著的性能差距——一些模型在单一划分中夸张地超越了原文,在 K 折中却一落千丈。这使得我论文中的“公平比较”反而成为了“做低性能”的疑点。
除此之外,还有一些书写层面的问题,比如模型命名残留、符号混乱等,导致整个工作难以服人。
这次失败让我重新审视整个设计。一方面我不能再用自己的测试数据,必须用论文中报告的原始结果来对比;另一方面,两大辅助模块(MCF 的 trick)也必须重新设计,避免与 MCF 看起来过于相似;此外,论文写作也要进一步精炼,适应 ECCV 的风格。
我开始对方法进行小幅重构,将精力集中于 Progressive 模块本身。两大辅助 trick 被弱化、重新包装。整体故事线调整为“强调结构稳定性与伪标签信任机制之间的动态权衡”,将“复杂叠加”变为“结构简约”。
论文不断迭代,图表也由我主导绘制,但由于审美感一言难尽,后期图示多由老师请来的师兄师姐协助制作。在反复润色后,我们按时投出了 ECCV。
投稿结束,我进入了一个等待与补偿的时期。
虽然那时我已经拥有了“科研经历”,但因暂无正式发表,想申请外校实习,仍然缺乏底气。我只能静静等待 ECCV 的审稿结果。而在等待中,我也开始推进下一个项目。相比之下,那篇工作乏善可陈,是将一个“合理但平庸”的技巧包装成完整方法,难以引起太大兴趣。我虽然继续执行着实验、修改着代码,但整体状态确实趋于疲软,只是咬牙坚持。
这段时间,我把更多精力投入文献阅读。多模态、具身智能、强化学习、GS……我读得很杂,也试图寻找下一段真正能让我兴奋的研究路径。
老师说:“就算这篇也投不出去,将来还能转投 PR,价值仍在。”听完这句话,我放下了些许焦虑,给自己设定了一个较为现实的目标——在大三开始前,完成一篇真正属于自己的论文。
这也是我选择科研路的第一个承诺。
平淡生活#
科研之余,大二的日子过得并不热烈,甚至可以说颇为“平静”。
乐小姐在大一下成功完成了专业分流,在我的鼓励与她自身的努力下,进入了她心仪的口腔医学专业。她所在的雁塔校区离主校区很远,坐车得二十分钟起跳。但相较之下,那里的地理位置反倒优越许多:附近就是小寨商圈,吃喝玩乐一应俱全,还有一座我常念叨的麦当劳——这是兴庆校区所无法享受的“奢侈”。
于是我们踏上了“同城异地”的日常。我有时打车去找她,有时她来找我。我们在热气腾腾的海底捞里畅快吃肉,在齐齐哈尔烤肉店边吃边聊,后来这家店倒闭了,成了我西安饮食回忆中最大的遗憾之一。
那段时间的生活可以说是岁月静好。CVPR 的结果尚未公布,我仍自信满满,口袋里有余钱,恋爱也甜蜜,课程不难,科研刚刚起步,一切看上去都稳步向前。
与此同时,另一件事情悄然展开。
由于不断有新生来向我请教课程选择、专业方向、学习规划等问题,我萌生了编写“西安交大生存指南”的想法。我希望它不仅是一份解惑手册,也是一份“干货+私货”的经验总结。第一版很快成稿,内容包含我对科研、竞赛、自学路径的初步理解。当时的判断也许不够成熟,但不少建议至今看来仍具价值。
我也试图写一份 AI 自学指南,只可惜到现在仍未完工。琐事太多,心力难得安宁。但我留了一个空白的前言,默默祈祷 ECCV 有好结果,那样我就能以更坦然的姿态写下它。
大二下生活#
寒假像是一场突然被允许的长梦,我难得有机会什么都不干。大概也是最后一次,能够如此心安理得地把日子交给“休息”这两个字。如今想来,那种能够“空白度日”的时光,已成奢侈。
返校之后,生活重新上了轨道。QZZ 在我的“怂恿”下也开始科研,LXW 则参与了部分代码开发,虽然他提交的那段程序在我看来结构极其混乱,堪称屎山续写,但至少,它确实运行了。
我的节奏没太多变化:白天在社团地下室看论文、改代码、测试模型,偶尔补点技术细节。绿群那边则成立了 AI 学组,由 YXJ 担任领头人。这件事我一直觉得有些迷惑:整个年级百分之八十的资料几乎都是我写的,而 YXJ 几乎无贡献,不知他为何“自然地”成了主理人。不过也罢,形式这种东西,从不妨碍我继续做事。
我不太在乎名义。倒也曾怀抱一丝希望,以为这些聚集起来的同龄人能共同碰撞出一些新的东西。事实却是,我们年级的响应寥寥,倒是下一届学弟学妹中,出现了不少值得期待的面孔。
接下来的生活渐渐趋于平稳。课程不重,比赛内容已在 RM 回忆录中详细记录。进入期末前,我忽然又燃起了写作的冲动:开始构思“西安交大生存指南”,并着手搭建个人博客,打算将这几年踩过的坑与经验写下来,供后来者参考。
就在这个过程中,ECCV 开分。
443。这是我收到的分数。
一时间,我有些发愣。原本只期盼一个稍正面的评分来抚慰自己,但万万没想到,是这种几乎一边倒的好评。
一切情绪在一瞬间翻转。
此前 CVPR 的落选还历历在目,审稿人的冷漠、方法的怀疑、细节的否定,仿佛才刚刚过去。而现在,三个审稿人全给出正面意见,问题也集中在“写作需清晰”“细节需补充”之类的善意建议。这是一次彻底意义上的翻盘。
我立刻草拟了长长的 rebuttal,计划逐条回应所有问题,也试图再推一推三分审稿人的评分。第二天,和老师开会定调,目标清晰:稳住 4 分,争取拉 3 分上岸。
老师还找来了两位高年级师兄师姐帮忙。他们图像表达极具专业性,而我当时做图水平可以说一塌糊涂。在他们的帮助下,一天时间内,原本混乱的结构图被重新设计,变得具备了“顶会论文”的范儿。剩下的则是我擅长的部分:润色文字、删减冗余、统一术语,确保表达精炼有力。
一切完成后,我们提交了 rebuttal,刚好赶上了期末复习周的开始。
说实话,这份高分带来的希望,几乎成了一种折磨。我原本对 ECCV 已经不抱幻想,而如今,又被扯回焦虑之中:我开始每天刷知乎,查分布、看贴子,计算有多少人比我高,又有多少人被“意外拒掉”。
我设想了各种情况:
- 如果我的领域整体分数偏高呢?
- 如果审稿人互看评语后产生动摇呢?
- 如果 meta reviewer 单方面不喜欢我呢?
一切皆有可能。我甚至和朋友打赌:如果中稿,就拍二十张认真设计的女装照——不只是自嘲,更像是给这段压抑旅程的一种仪式。
也是在这一段焦灼等待中,我完善了《西安交大生存指南》,将大一大二的经验、思考、判断一一写下。虽然那时我还未正式发表,但我仍觉得这些内容值得留下。就像我在前言中所写的那样:无论结局如何,它们都是真实踩过的坑,值得被分享。
轻舟已过万重山#
我记得那天的每一个细节。
ECCV 原定凌晨出结果,我打算熬夜守着。然而大约傍晚六七点,投稿群突然传来消息,说结果提前发布。我迅速登陆,颤抖着输入编号“8535”,却没有任何结果。
我怔住了,心脏仿佛漏跳一拍。
随后我发现自己输错了编号。改正后再次检索,页面上赫然出现一个数字:“1”。
那一刻,我仿佛被抽空了全身的力气。石头从肩头落地,我缓缓瘫坐在椅子上,久久说不出话来。然后转头对旁边的 GYT 说:“我中稿了。”
接着才是迟来的情绪涌现。
我没有哭,只是哽咽了一下,情绪卡在嗓子眼。过去的一年里走得太苦、太密、太长,早已耗尽眼泪。我开始一一报喜,发说说,告诉老师,写博客前言,像是终于可以堂堂正正地讲述这段旅程。
那句我写在 QQ 中的话我记得很清楚:“轻舟已过万重山。”
这一次的成功虽不如我少年时梦想中的“早早中稿、提前出发”来得完美,但依然足够耀眼。原计划是大二投两篇论文,一篇在上,一篇在下,然后手握成果去寻找实习机会。但事实是,我付出了整整一年,只换来一篇。
无论如何,这篇,却真的拿到了。
绿群往事#
说起绿群,那是我大一下就已接触的平台。它既是一个保研交流群,也是一个充满秩序与混乱交错的数字社区。
因为我早期投入 RM,也养成了通宵和“全部工作电脑化”的生活节奏,我极少在寝室出现,和舍友交集不多。反而在网上结识了许多朋友,大多数是比我大一两届的,也有同龄人。
我常在群里“卖萌”——比如“喵”口癖和女装照,也常分享学习经验与科研思路,所以在绿群里还算“人尽皆知”。
这一年,我在群里做了不少事。
最初是在观察中产生的灵感。每年都有无数同学焦虑自己能否保研,时常会在群里贴出自己的情况,寻求他人建议。这种“保研定位”本质上意义不大,却能带来心理安慰。然而由于消息太多,很多人很难被看见。
于是我做了一个表格,用腾讯文档搭建最早的“保研定位表”。每个人可以匿名填入自己的学校、专业、排名、竞赛与科研情况,然后让其他群友进行定位打分。推出之后火速传播,数千人使用,甚至被其他保研群模仿。
但好景不长。中介发现这个表格开始爬数据并滥用,最后还举报了文件,导致我不得不关闭开放权限,转用 Google 表格。但 Google 表单又因权限限制,导致填写率大减,热度渐退。
尽管如此,它仍然是我在绿群事务中第一次“破圈”的产出。
后来我又做了另一个工具——夏令营收录站,灵感来自于科研圈的 ccfddl 网站。我一口气肝了一个晚上的代码,做出原型,然后结合 GitHub Actions 实现数据自动同步。任何人只需发一个 issue,夏令营信息就能自动更新。
这个工具长时间为数千保研生提供信息支持,获得了上百个 star,也让我在组织内部成为了 admin 与 GitHub owner。那段时间,我发群公告的次数越来越多,也算是逐渐承担起一部分维护者的责任。
上海实习#
暑假的前半段,我依旧陪 RM 队伍南下深圳,征战全国赛。我们再次打入十六强,成绩虽无惊喜,但也算无愧于心。一个月的时间一晃而过,像是大二这座山峰的缓坡,走到这里,真正值得铭记的事,才刚刚开始。
ECCV 中稿之后,我决定尽早开启实习,在实践中继续积累经验。经过绿群前辈们的指点,以及自己的长期关注,我毫不犹豫地投向了早已心仪的目的地——上海人工智能实验室(Shanghai AI Lab)。
从大一开始,我便听说过这个地方:顶尖的科研氛围、良好的待遇、丰富的资源,仿佛是本科阶段遥不可及的科研乐土。真正到了选择时,我把目标聚焦在其中几个具身智能与多模态方向的小组。多模态是我此前读得最多的方向,也很吸引我;不过相比之下,具身智能那种交叉性、系统性、实验性更强的研究氛围,反倒愈发吸引我。
我联系了 OpenRobotLab,投出简历后,很快收到回复。面试安排得干脆利落,流程也不复杂:简单介绍自己过往项目,阐述科研理解,分享自己之前的论文。没有被卡公式,也没有刷代码——或许 CV 上那篇 ECCV 已为我提前减轻了很多负担。
RM 比赛结束后,我立刻北上,租好房子,开始一段新的科研生活。
初到上海,我没有不适。一个人换城市、租房、上班,对我来说早已不再陌生。实验室氛围如传言那般自由高效,我迅速投入工作,带着那台大学买的沉重外星人笔记本,每天背着上下班。电脑电池几乎报废,续航不足一小时,但我仍坚持完成了几项工作:复现了一篇 prompt-based 但无现成代码的论文,熟悉了 Isaac Sim 平台,并开始了第一个具身智能方向的实验构建。
这段实习期间,我结识了许多有趣的人。伦哥是我最直接的 mentor,lab 里的豪哥、洋哥、haifeng、xinyi 等人也都对我极为照顾。更有趣的是,绿群里许多同龄人也正好在那儿线下实习,我们甚至组织了几次线下聚餐,那是我罕有的“从线上走进现实”的社交尝试。
当然,生活并非只有科研。
在上海,我最大的感受就是——饭太贵了。西安的食堂,哪怕校外馆子也算便宜;北京虽贵,但大多时候是家里人请客。而在这里,动辄三十起步的工作日午餐让我不得不调整花销习惯。但即便如此,我依旧心甘情愿留在公司加班,只为多跑一次实验,或多 debug 几个小时。
实习很快结束,我与 mentor 沟通,决定远程继续项目。设置好远程工作站后,我拖着箱子踏上归程,坐上了返回西安的高铁。那天的落日格外温柔,像是为这段短暂却厚重的科研之旅盖上一张温软的毯子。
尾声#
与喧嚣而五光十色的大一相比,大二显得沉静许多。
没有那么多社团活动、社交活动、穿梭在各个兴趣圈的热闹。我的世界被压缩成两块:一是科研,一是 RM。再往外走,就是绿群这样广阔而遥远的虚拟社交。而在现实中,我几乎只与一个人密切往来——乐小姐,她是我这一年最稳定的锚点。
如果说大一是“首次触碰自由”的踉跄起跑,那么大二便是“朝着目标前进”的稳定步伐。科研从尝试到成果,从困惑到方向;社团从参与到引领;自学从阅读到分享;社交从广撒网到精准维系。我变得更笃定,也更独立。
当然,也不是没有遗憾。
我曾期望大二能投出两篇论文,走在所有人前头,提前出发,申请外实,掌握主动。但事实上,我只是发表了一篇工作,另一篇也仍在修改中;我也没有以“科研少年天才”的身份横空出世,而是依旧在泥泞中摸索,在代码堆里精疲力尽,在深夜无数次推翻思路又重来。
但那又如何呢?
从时间轴来看,我已比许多同龄人走得更远。我不再焦虑别人的排名、课程成绩、实验记录,不再将内卷视作天命,而是将它当作自己定义的一场漫长竞赛。前方没有标准答案,但我已有了方向。
如果要用一句话来概括我的大二,或许是:
“我走得不快,但从未停下。”
这并不是一段“少年得志”的轰烈故事,而是一段实实在在的攀登,一次次从怀疑、失落、疲惫中爬起来的经历。它不是终点,也不是高潮,而是一座山——我已经翻过它。
而眼前,还有更多山峦,等着我一一走过。