Axi's Blog

Back

周记 Week7Blur image

所以说,这其实又是一次久违的周记,一方面确实上一周的事情很忙,没什么时间去写东西。假如有读者关注我的 RSS,不难发现,基本上都是大段内容的 Isaac Sim 分享,说白了也就是和科研紧密相关的技能的学习。

我大概是周三来的上海人工智能实验室,然后周四入职,按照写周记的这天算,大概也一个星期了。这段时间基本上就是醒了学,然后累了就睡。

说起来由于签了保密协议,所以其实做的一些事情和安排是不能说的,虽然听说没有过因为随手记录所以被惩罚的事例,但是毕竟按照我的计划来说,将来的很长一段时间都要在这边实习,所以还是小心使得万年船。在这里也立一个标准,以后相关的事情,只说自己学了什么,学了多久,不说干了什么,任务一类的一律不谈,直到产出为止。当然,我的一些学习分享的东西也会继续更新,这并不矛盾,或者说课题组里面貌似相关的东西也正好需要积累,那么何乐而不为呢?

学业#

因为这一周发生的事情确实比较少,我也就不分条来概述了。这周的前半段的话是比较急的搞了一下签证,然后就坐火车来了上海,路上倒是没有发生什么事情。相较于回西安的时候买的是坐票,去上海还是稍微阔绰了一把,所以买了卧铺,个人感觉是硬卧的价格,虽然比不上软卧,但是貌似比我之前见过的那些卧铺要好很多,而且也很干净。来了这边之后住的也还不错,属于是酒店公寓了,和酒店一样,通勤骑车二十分钟。

学习上的事情,我愿称之为三板斧,也就是三个很重要的事情。一个是要补考,之前复变函数缓考了,需要补,大概率还需要复习一下,毕竟我的记忆力只取决于平时的练习,所以还需要找回一下感觉;一个事情是本校那边的科研,因为打算投 ICLR,所以论文的工作现在就要开始了,也是要好好准备一下的;一个事情是上海这边的实习,目前的任务依然存在,而且还挺多。

这个星期其实有一点久违的感觉,或者说这个假期至少没有荒废。之前的放假,总是会夹杂着一些自我感动,类似于自己平时已经那么努力了,假期休息一会儿也无所谓,然后就刷着没有营养的视频,又荒废了时间。现在来说确实好了不少,虽然说在假期前给自己定的 DDL 基本上一个也没有完成,但是参加科研实习,并且期间也收获了很多人的认可,也算是一件宽慰了。

其实一直以来我都有一种暗自的自满,认为自己至少和同龄人相比,已经是很有水平了,但是实际上来了这边之后才发现,确实是强中更有强中手。一方面,比如说在绿群,可能我的水平已经算是很高了,甚至说西交的学历已经可以让我挺起胸膛,然而在目前的小组中,不说是科研经历,就连学历也已经成为垫底的了。

有的时候我也想要提前向前看一步,类似于比我大一岁的人,我一年之后能不能超过他们,对于一些很厉害的人来说,我觉得只要足够努力还是有希望的,然而确实有的人我已经难以望其项背,也算是一种警醒,还需要继续高强度学习。

基础来说,这一周学的东西还是很多的,后续能够放出来的,我也都会在博客中给出,算是一种积累和量化,顺便也给后来者一些力所能及的帮助吧。

聚餐#

这个星期做的另一件事情,我觉得值得一提的,应该就是所谓的聚餐,或者说面基了。之前一直以来都是在线上和大家聊天,但是其实线下基本上都是和大家没有接触的,而和具有能力的人交流确实是一件愉快的事情,而且也可以增长自己的见识,再加上环境的改变,这种事情一定会越来越多。

这周三也是受到了群友 Selen 的邀请,他和我以及谢老师三个人一起吃了个饭,然后晚上在太古里那边散步聊天。Selen 和我同样是大二升大三,谢老师是大三升大四,他们两个人都是西电的我们三个也可以说很有共同话题了。

Selen 属于接触科研比较早的那一批,只是可能收运气或者什么原因,暂时还没有 publication,而谢老师是没有套瓷就进了清华的叉院和 AI 的人物,可以说不只是排名很好,而且科研能力远超于一般人,甚至让我将一年内的目标,可能就确定为想要到达他那种水平。

互相交流的时候,因为我们也不太打游戏(虽然说我之前还有打游戏,但是如今可能也比较少了,唯一算是有的可能是碧蓝航线,然而用了 alas 之后可能几天都不用上去一次),一方面可能聊聊科研,一方面可能就是一些吐槽了。

大家其实比较有共识的一点在于,西安确实想要发展是比较困难的,一方面高校虽然有,而且也算比较顶级,但是明显资源不多,而且内陆的企业也不算很多,基本肯来这种地方,假如是商业目的,实在是不如沿海城市。尤其是做人工智能,目前的一些领域里面,可能线下的实习会更加合适,而做出有影响力的工作又十分依靠资源和算力,因此在西安发展的自然也就举步维艰了。

另一方面,被大家广泛吐槽的是,也就是学习和开源氛围了。讲实话,无论是西电还是西交,假如就说课内成绩,高手肯定还是很多的。日复一日年复一年的刷题和上课,这一批人又是好不容易卷出来的,能够将前排的绩点卷到一个匪夷所思的程度,自然也就不难理解了。但是尽管,说得好听一些,数学功底和计算机基础十分 solid 的人不在少数,但是在科研上有所长进的其实并不多。

按照我们年级来说,我认为就课内学习而言,比我强的人少说也有七八个,然而就我所知,目前科研进度超过我的应该没有,甚至在人工智能班的历史上,能够和我大概在一个进度的也不算很多。谢老师更是属于提前规划的一批,早在大一就已经去商汤实习,这等前瞻在是令我望尘莫及,而 Selen 则是和我在同一节奏。

不难发现的是有能力的人其实很多,然而大多数人在心态上就已经落后了不少,大概自己从初中高中就养成的做题家的舒适圈中,每天将课内的任务做完之后,以为复习的差不多滴水不漏,就已经知足。至于课外,大家也或多或少都听说过需要在课内的基础上再看看课外,然而依然不愿意自己去打破信息差。有的时候看到某某活动加工时/集体活动分,有的时候是某学生会干部,或者是某大创以及某创新创业竞赛,然后收到了别人的邀请,就义无反顾地投身其中,然而这些有点像是在青春小说里才会成为主要章节的内容,在现实中的功利主义面前实在上不了台面。或许有人说,自己水平可能还不够,也做不了科研,就并不是自己不想,而是不愿意给老师添麻烦。然而试问,这一类人又有没有了解过,有哪个课题组愿意招收课内成绩突出的学生,又有哪些是只要 self-motivated 就可以了。想着自己没有科研经历就不能科研,然而有没有尝试去了解需要学什么,而不是陷入没有科研就不能科研的死循环怪圈。

或许可以说,有些人能力够了,但是心态还不够,但是从另一个角度,心态又何尝不是一种能力呢?敢于尝试,遇到事情先想,have a try,而非 give up,或许就能好上很多。

当然,另一个更大的,让我非常有怨言的,也就是关于开源的事情。每一个计算机领域的人或多或少都听说过开源的传说,在 GitHub 上面用过那些炙手可热的工具,也或许有不少人都梦想成为一名开源事业的参与者。当然,从广义上来说,在大学中最常见的开源工作,还是要说学习资料分享和经验分享,将这些可以让自己的学习变好的内容分享出来,何尝不是一种开源的呢?

然而事实上是,无论是国内的大学圈子,还是西交,开源氛围都差到了令人发指的程度。

先谈西交,我无意否认那些学辅,优秀的诸如钱院学辅,一直在产出优秀的内容,然而确实存在不少的学习资料,以思政相关尤甚,为了做到滴水不漏,甚至一本资料上百页。当然,这也并非是在资料中给出了什么崭新的见解或者论述,而只是单纯将书中的大多数内容摘抄了下来。不少的同学只是为了工时,而在这里凑一些字数,有指标在,页数越多工时越多,而又如何做出小而美的开源?

当然,将眼光聚焦在人智专业,开源的资料更是大多数都是上古时期流传的,而如今的内容,我可以说则可能有至少百分之五十是我贡献的,甚至我可以说,绝大部分。

然而这是否说真的不存在开源的分享呢?一些还是有的,我们有 AI 学组,我之前建立过 Obsidian 的仓库,后来又建立过其他仓库去负责 AI 研讨会,到目前为止,PR 依然为 0,然而学组中的人数居然高达九人。

前一段时间,学组又说要办 AI 研讨会,我不禁暗自称奇,且不说大家有没有能力去研讨,这我前些日子搭建出来的 AI 研讨会网站,也在专业群里进行了宣传,到现在还没有一个 PR,现在就想着自立门户了?所谓开源,难不成是创立山门,自立为王,然后等别人来丰富内容?

这一研讨会还自称 NCAI,大概是南洋 AI 研讨会的意思,当时在群里征求意见,我确实一时间气的不行,写了大段的回复:

—-

  1. 最基础的问题,Nanyang Conference,这个署名权是否经过允许,钱学森书院并非南洋书院,这个名称是否需要商榷。
  2. 科研虽然大家说门槛不高,是否真的不高,假如不是连续的讲座而是单次分享,是否真的可以将受众与深度兼得。
  3. 所谓科研工具分享,除了 overleaf 和 chatgpt,科研工具真的存在必须必要而且实用的工具吗?文献整理/笔记/代码/SSH,各种工具我均有体验过,没有一个工具是真正值得推荐的,多半是差生文具多。假如介绍 LaTeX/SSH/conda 等的使用,分享者有多大的把握可以超过一个一概不知但是使用 ChatGPT 的人?教学的质量又有多大可能能超过那些经典的教程?
  4. 当下流行的科研,有多少本专业本年级的同学仍沉迷于中文三大会的推文内容?有多少能准确说出当下最流行的几个方向以及其中的代表性工作?即使是炒作的工作,完整的理解公式的内涵而非朗读,又有多少人能做到?在我的印象里,此等人本专业本年级不超过三人。
  5. 阅读论文,互联网上如李沐等大佬的视频均有之,分享者有何超越互联网内容的全新见解?假如如此,分享者论文阅读数量是否破百,是否真正了解某一领域的来龙去脉,而非人云亦云?
  6. 思维碰撞,最忌讳 idea 抢跑,是否有足够的筛选机制,控制人员的安全性以及君子协定的严密?为什么有 idea 者不在组会分享(有更具经验的人指导,安全,而且假如可行可以提供算力,而研讨会甚至没有人有能力判断可行性),NCAI 有什么吸引力?
  7. 开源社区的维护,早在一个多月之前,我已经搭建了 AI 研讨会的 GitHub 组织/仓库/静态网页,https://xjtuaiseminar.github.io/,并在 AI 大群宣传,目前 pr 数量为 0。现如今的本专业甚至本校开源组织者,很大程度只是享受掌管开源社区的权力,而频繁另立山头,参与开源者寥寥无几。一个数据是,我目前维护七八个仓库,今年 commit 超过一千五百次,一个 star 破千,一个 star 破百,大量仓库访问量上万,而 star 不足五十,全部仓库活跃贡献者不超过十人。试问 NCAI 有什么把握可以维护活跃的社区?老实说,工时是西交仅次于大创第二没用的东西,用这种东西鼓励开源者甚至不如 GitHub 的一个 star 或者 follow,换句话说,是一种侮辱。
  8. 领导者的选择,且不谈另立山头,一个会议就会有委员会,会有会长,谁能够担当这一职务?选择籍籍无名/学术成果不佳者,何以服众?选择成果累累者,由能用什么来吸引?开源是无偿的,但是不是别人的义务。
  9. 举办会议,制作奖品,经费从何而来?如何管理?部分人自费终究只是部分人的自嗨,规模与影响力均无法扩大,而又没有足够的人手和精力处理一个复杂的经费管理体系。

—-

得到的回复则是乏善可陈:

—-

1.小问题,我也觉得要改,改个名字就行 2.4.实际上我自己的想法是开两种类型,一种是适合小白来学,一种是水平较高的同学互相讨论分享,也许是一种解决办法。 3.5.网上确实有优秀教程,但是自己学习的话动力没那么足,如果我们能够让大家我们紧密联系在一起集中一起学习,也许能够起到更好的效果。这就好比高数等学科,网上也有好的教程,但事实上很多同学还是跟着老师学。甚至我们不需要自己准备教程,对着李沐讲/放视频都行(?此点存疑),可以布置一些小作业/课上内容问答以活跃气氛等(但是这又是另一个问题,学校众多老师都没解决的课堂氛围不活跃、作业无法得到监督的问题,我们又如何解决?) 6.我也想到了这个问题,我认为有必要的时候,我们在分享之前需要向大家强调这一点,可以通过收集人员信息/让他们在保密协议上签字等方法进行约束,如果有人就是什么都不管抢跑了,我们可以找其导师进行反映。如果ta实在什么都不管不顾,我们也没办法,只能希望大家素质还是比较高的。 7.个人想法是如果我们能做出一个影响力较大的组织,那么可以让大家朝我们靠拢。 8.首先我不认同“会有会长”这个概念,相反我们需要的是“组织者”,这在一定程度上可以避免学术成果与组织的矛盾。另外,也完全可以采取集体领导的方式。 9.个人想法是,这个组织不需要多正式,实际上几个人之间的学术讨论确实可以理解成几个人的“自嗨”。

以上是个人从建设性的角度针对上述问题提出的一些办法,不一定成熟且合理,只是在尝试着提出一些方法。以上不是何的意见,也不代表我反对高的意见(事实上相当多部分我是认同的)。其实问题大家或多或少都看在眼里,不过想办法解决总是对的。

下面是个人的一些意见: 实际上虽然这件事做成了会是极好的一件事,但基于学校/专业目前的氛围,我对前景有些担忧。比如,且不提开源精神,我相信有些人github也不一定有。 我个人希望能够做到的(如果能做到),是给众多科研门外的小白提供一个入门的机会。诚然网络上教程相当多,但是如果对科研一点研究都没有的小白/其他专业的同学,他们根本都不知道这些资源、不知道去哪里找,甚至没有意识到科研这件事,那从何而来入门呢?

我为什么那么关注科研小白,是因为两个原因。首先只有厚植土壤,形成良好的氛围,才能枝繁叶茂;其次,这类群体是最广大的群体,也是众多人群的最大公约数,我们想要做出有影响力的事情,我认为是应该面向他们起步的。 以上。

—-

这段话可以说是离奇至极,乍一看是冠冕堂皇的理想主义,但是细品之下却只有混乱的逻辑。一边说要帮助更多人,一边说是小部分人的自嗨,还说做开源,无论是研讨会还是之前的学组,又有多少人真正参与其中呢?现如今又是哪里来的把握,说自己一定可以再创辉煌。

更何况做这种分享,搞一些网站也好,文章也罢,又或者是制作视频,完全是更好的载体,所谓的研讨会,也只不过是希望别人作为忠实的听众,给自己在台上侃侃而谈提供了一个平台。

再回复,则是:

—-

不妨说的再不客气一些:

  1. NCAI 对于水平高的同学有什么吸引力,有这个时间为什么不多看看自己的文章,写写代码,写写论文?而真正能参与理解和讨论,并非争论 Mamba out 或者 KAN 的 unfair 的人能有几位?
  2. NCAI 能办成有影响力的 xxx,事实上叙述已经前后矛盾,前面期待有影响力,后面又不指望多正式,那么这个组织的定位到底是什么?
  3. 上课的课上问答和作业有谁喜欢?谁会愿意去多上一节课?徒增压力的事情对于每一个人都没有好处。在听说有作业之后,每一个本来有兴趣的小白都会放弃尝试。
  4. 只是看视频或者寻找教程,大家又知道多少教程?不到一页 A4 规格 PDF 可以写完的内容,为什么还要开始讨论?
  5. 和不同领域的人讨论,到底能有多少收获?假如说大家从跨领域的知识中可以获得理解,参加人机所之夏之后,是否有人受到启发已经开始写新论文了?假如大家没有参加人机所之夏,为什么又有把握参加 NCAI?假如说和同领域的人讨论,为什么不和同组的师兄交流?
  6. 再说君子协定,到头来只能寄希望于每个人的素质/没有办法,而课题组几乎可以百分百确保这件事情不会发生,一个高风险低回报(不同领域的反馈),一个低风险高回报(同领域专家的反馈),为什么要分享?

个人建议,假如大家真的想做这种交流与分享,可以先录制教学视频,制作文档,上传 B 站并搭建静态网页,并且在各种群中宣传,参与视频录制的人数以及播放量会告诉你答案。

顺便,想要了解每个人的科研情况的话,不妨尝试建立以下的问卷,看看大家的科研到底到了什么阶段:

  • 会使用 slrum
  • 会使用 huggingface
  • 处理过至少百万量级的数据集(处理,并非使用)
  • 阅读过超过 50 篇论文
  • 阅读过超过 100 篇论文
  • 主持过一项自己的课题(科研课题,非大创/腾飞杯)
  • 参与过超过三项课题(科研课题,非大创/腾飞杯)
  • 具有顶会一作的中稿(与前面的可以合计两分)
  • 在外校或者企业进行科研实习
  • 在港三/新二/美的顶尖学校进行科研实习(与前面的可以合计两分)

以上内容各加一分。

  • 正在主动参与一个大创项目
  • 正在使用非 Pytorch 的基础框架,或不会使用 Pytorch
  • 看过 KAN/xLSTM 等炒作工作,但是没听说过 RWKV
  • 只知道 CV 三大会,不知道机器学习三大会是什么
  • 不知道如何在服务器维护一个训练的线程,而不会在关闭的时候被 Kill
  • 没有使用过 GPT4(并非免费的 4o)

以上内容减一分

目前本专业本年级的同学大于等于 3 分的能有三位吗?

当然,假如需要写文档或者录制视频,我肯定是会积极参与的,然而有必要提及的是,本人的另一项目,AI 自学指南,https://aidiy.icu/,同样为 0 PR。

—-

当然,我也并非说我的项目如此优秀,每个人都必须给我 PR,然而纵使我投入精力最多的西安交大生存指南,上万的访问量,却不足二十 star,也只有 2 PR,大多数人只是看,成为资料的收集者,并认为别人回答自己的问题是天经地义。不说满足提问的智慧,就连谢谢也不到 50%。

我做了很多的项目,然而很少有人能够给出任何程度的反馈,而且我确信这些内容或许是有意义的,因为在我在网上的大量检索过程中,并没有发现同质项,然而本专业的一些同学却依然在热衷于挖新坑,等待别人去填,实在是令人难以接受。

这实在是令人沮丧的,更不用说全国范围内,前不久也有同学来找到我,说想要参与 cs-baoyan-ddl 的项目,然而我制作的 workflow 可以通过 issue 直接更新数据库,并且 tag 也可以自己添加,更新一个学校不到一分钟。半天过后,我看到四个 issue,然后亲自把它们更改成了符合格式的样子,至于这个项目,按照他的话来说,“我想攒个 GitHub 的提交”,说不定已经进了自己的项目经历。

好吧,一时间我实在不知道该说些什么,只是失语了,要是真的想帮助别人,之前写资料的时候大家又在哪里,现在怎么又只是热衷于提案/幻想/一触即走?

这是这周的一些事情,权且当作牢骚和抱怨吧,开源的氛围和环境,这是一个长线的事情,我也早就不应该抱有过多的期望,每一届能有一两个人,或许我就应该要知足了,但至于我的路,暂且行一步看一步吧,希望能够在帮助别人这件事上走得更远。

周记 Week7
https://axi404.top/blog/week-07
Author 阿汐
Published at August 25, 2024
Comment seems to stuck. Try to refresh?✨