Axi's Blog

Isaac Sim 一百讲（3）：USD（上）

Sat, 18 Jan 2025 00:00:00 GMT

import { LinkPreview } from 'astro-pure/advanced'

前言

在上一讲中，我们介绍了 Prim 的概念，Isaac Sim 中的一切资产被通过 Prim 以梳状的结构组织起来，并且通过 API 来完成其他属性的赋予。作为新手使用 Isaac Sim 的时候，读者可能常常在创建诸如 Franka 的时候陷入长时间的卡顿，这种由于请求 Isaac Sim 服务器中的资产而陷入的卡顿事实上是一种多余的开销，那么一种想法很自然会出现，如何通过一种更加本地化的方法来管理我的全部资产？USD 是这一切的答案。

USD

如何理解 USD，可以理解为这就是 Isaac Sim 文件的保存形式，USD 文件和诸如 .obj 或者 .glb 等内容相似，只不过其管理了更多的内容，包括光照、物理等属性，换句话说，事实上 USD 里保存的就是我们上文提到的 Prim 的结构以及全部的属性信息。

当我们默认创建 Franka 的时候，事实上就是在向服务器请求一个 Franka 的模型文件，以 USD 的形式，并且添加到 stage 中。其中 USD 文件包含二进制以及文字形式的全部信息，USDC 则是二进制形式，USDA 为文本的形式，USDZ 则管理一个压缩包。值得一提的是，在 USD 的家族中，事实上只有 Blender 才可以创建 USDZ 文件，而 Isaac Sim 则只能读取，却只能保存为 USDA/C/_ 的格式，这意味着其中的贴图文件使用默认的绝对路径进行管理，在传输给其他人的时候，也就很容易贴图丢失，打开的内容只剩白模。

GLB To USD

在读者了解 USD 之前，可能更多听说过的还是以 GLB 为典型的模型资产，而这更主要的原因其实在于，以 Objaverse 为首的大规模模型库都是以 .glb 的形式进行保存的。直接通过某种传输的方式，让读者下载本文中提及的模型文件，并且进行进一步的处理（如转为 USD 并添加到场景中）是一件不现实的事情。一方面我们在后续可能会用到很多的资产，而另一方面，我们也很难每次都单独提供这些文件，于是授人以鱼不如授人以渔，我们将首先详解如何获得这些数字资产，并且转换为 USD 文件。

Objaverse

Objaverse 是一个包含了 800K 模型资产的 dataset，而更进一步，其升级版本 Objaverse-XL 则包含了 10M 的模型资产，这些内容事实上包含大量的脏资产，如质量较低的扫描物体，或者不常出现在现实中的物体及虚拟物体。清洗的部分并非我们的讲解范围，而部分的其他工作可能公布一些 Objaverse 的 subset，这些 subset 的质量更高，并且可能被加上了更多的标注。

首先可以安装 objaverse：

pip install objaverse

并且可以通过以下的代码获得一个模型的路径：

import objaverse
print(objaverse.__version__)
uids = objaverse.load_uids()
print(len(uids))
annotations = objaverse.load_annotations(uids)
random_object_uids = random.sample(uids, 10)
import multiprocessing
processes = multiprocessing.cpu_count()
objects = objaverse.load_objects(
    uids=random_object_uids,
    download_processes=processes
)
print(objects)

你可以注意到 objects 是一个字典，其中的键是 uid，而值则是对应的模型的路径，你可以在这个路径下面获得这个模型对应的 glb 文件，或者直接使用shutil来拷贝：

import os
import shutil
os.makedirs('models', exist_ok=True)
for uid, path in objects.items():
    os.makedirs(f'models/{uid}', exist_ok=True)
    shutil.copy(path, f'models/{uid}.glb')

转换脚本

接下来就是转换的脚本了，这个脚本本身是十分复杂的，但是好在 Isaac Sim 已经给出了实践。你需要安装程序版本的 Isaac Sim，

cd /home/$USER/.local/share/ov/pkg/isaac-sim-4.1.0/standalone_examples/api/omni.kit.asset_converter/
vim asset_usd_converter.py

你就可以看到这个程序的基本实现的版本了，直接指定目录之后执行，即可获得 USD 文件了。在这里同样给出一个我自己稍微改了一些内容的版本，具体就是多了一个传参而已：

import argparse
import asyncio
from isaacsim import SimulationApp
import os
from pathlib import Path
from tqdm import tqdm

async def convert(in_file, out_file, load_materials=False):
    import omni.kit.asset_converter

    def progress_callback(progress, total_steps):
        pass

    converter_context = omni.kit.asset_converter.AssetConverterContext()
    converter_context.ignore_materials = not load_materials
    converter_context.use_meter_as_world_unit = True
    instance = omni.kit.asset_converter.get_instance()
    task = instance.create_converter_task(
        in_file, out_file, progress_callback, converter_context
    )
    success = True
    while True:
        success = await task.wait_until_finished()
        if not success:
            await asyncio.sleep(0.1)
        else:
            break
    return success


def asset_convert(args):
    supported_file_formats = ["glb", "obj", "fbx"]
    for folder in args.folders:
        local_asset_output = folder + f"/../{args.dist_folder}"
        result = omni.client.create_folder(f"{local_asset_output}")
    for folder in args.folders:
        print(f"\nConverting folder {folder}...")
        (result, models) = omni.client.list(folder)
        for i, entry in tqdm(enumerate(models)):
            if i >= args.max_models:
                print(f"max models ({args.max_models}) reached, exiting conversion")
                break
            model = str(entry.relative_path)
            model_name = os.path.splitext(model)[0]
            model_format = (os.path.splitext(model)[1])[1:]
            if model_format in supported_file_formats:
                input_model_path = folder + "/" + model
                converted_model_path = folder + f"/../{args.dist_folder}/" + model_name + ".usd"
                if not os.path.exists(converted_model_path):
                    status = asyncio.get_event_loop().run_until_complete(
                        convert(input_model_path, converted_model_path, True)
                    )
                    if not status:
                        print(f"ERROR Status is {status}")
                    print(f"---Added {converted_model_path}")


if __name__ == "__main__":
    kit = SimulationApp()
    import omni
    from omni.isaac.core.utils.extensions import enable_extension
    enable_extension("omni.kit.asset_converter")
    parser = argparse.ArgumentParser("Convert GLB assets to USD")
    parser.add_argument(
        "--folders",
        type=str,
        nargs="+",
        default=None,
        help="List of folders to convert (space seperated).",
    )
    parser.add_argument(
        "--max-models",
        type=int,
        default=50,
        help="If specified, convert up to `max-models` per folder.",
    )
    parser.add_argument(
        "--load-materials",
        action="store_true",
        help="If specified, materials will be loaded from meshes",
    )
    parser.add_argument(
        "--dist-folder",
        type=str,
        default="usd",
        help="If specified, converted assets will be placed in this folder.",
    )
    args, unknown_args = parser.parse_known_args()
    dist_folder = Path(args.dist_folder)
    dist_folder.mkdir(parents=True, exist_ok=True)
    if args.folders is not None:
        asset_convert(args)
    else:
        print(f"No folders specified via --folders argument, exiting")
    kit.close()

在使用的时候可以执行：

python mesh2usd.py --folders /mnt/data/assets/objaverse-glb --max-models 1000000 --load-materials --dist-folder objaverse-usd

这里面，就可以创建一个 /mnt/data/assets/objaverse-usd 的文件夹，里面包含所有的 USD 文件了。

添加 USD

在获得了 USD 之后，我们就可以通过某种方式将这些 USD 文件添加到 Isaac Sim 中，这样我们就不需要再使用一些 CUBE 来作为一个 Demo 的示例了，而是可以真正使用这些模型。

Isaac Sim 一百讲（1）：安装

Sat, 18 Jan 2025 00:00:00 GMT

前言

事实上在此之前已经写过一次相关的教程了，详情可以见之前的教程，但是之前的教程实际上只是写了一下 Isaac Sim 正常的安装方法，并且对官方教程中的一个示例进行了讲解，但是事实上这个示例并不是足够有趣的，甚至和我们实际的实践也没有太大的关系。

在经历了漫长的实践之后，我发现 Isaac Sim 实际的运行逻辑，以及如何去理解的逻辑，这种逻辑使得我们不应该轻易地直接尝试运行官方的教程，因为这并不能让我们清晰地知道这个框架的全貌。因此我决定开始一系列的新博客，来讲解 Isaac Sim 的 Python API 的使用，也大概是因为将来我的工作流程里面会大量地掺杂着 Isaac Sim，因此对于其他的新手来说，一个友好的教程可以提供更加丰富的信息，而且效率更高。

安装 Isaac Sim

在之前的教程中事实上已经提及过如何使用 omni launcher 进行 Isaac Sim 的安装，这是一种最为友好也是最容易获得的途径，通过这种方式，你可以用 ./python script.py 的方式运行你涉及 Isaac Sim 的程序，但是很显然这并不够优雅，尤其是对于使用 Conda 的人来说。Isaac Sim 的程序安装形式的脚本中有提供 setup conda 的脚本，然而我们仍然不打算采用。设想你在远程的服务器上安装 Isaac Sim，执行不显示 UI 界面的 headless 程序，并且服务器不支持 VNC 控制，显然直接使用 pip install 是最为优雅的解法。

注意，在安装之前确保你已经安装了 CUDA toolkit、CUDA 以及 CUDNN，相应的安装方法可以见我之前的博客，一般来说假如你使用的是实验室的主机，这些内容应当已经配置完毕。

查阅 Isaac Lab 的文档以找到安装的指令：

conda create -n isaac python=3.10
conda activate isaac
pip install isaacsim==4.1.0 isaacsim-extscache-physics==4.1.0 isaacsim-extscache-kit==4.1.0 isaacsim-extscache-kit-sdk==4.1.0 --extra-index-url https://pypi.nvidia.com

验证安装

可以写一个简单的验证程序来确认是否安装成功，在这里不过多地解释这个脚本的内容，我们将在后续循序渐进地了解 Isaac Sim 的全貌。

from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": True})
from omni.isaac.core import World
world = World()
world.step()
simulation_app.close()

假如可以成功执行，那么就没有问题，给自己鼓个掌吧，你掌握了 50% 的人都不了解的技巧，可以直接通过 Python 启动 Isaac Sim 而无需以来原来的软件。

Notes

写在最后，尽管我们可以通过 pip install 的方式在正经的 conda 中建立 Isaac Sim 环境，但是笔者依然建议读者通过程序的方法将 Isaac Sim 安装在自己的主机（并非服务器）上。Isaac Sim 的程序通过 UI 界面启动，并且具备良好的交互功能，可以用来编辑场景，同时具备诸多方便的功能，因此假如说需要对自己创建的场景进行一些细微的调整，或者对于一些内容进行预览，依然建议通过程序模式进行启动。相应的应用场景我们也会在后续的教程中讲解，敬请期待。

Isaac Sim 一百讲（2）：万物皆 Prim

Sat, 18 Jan 2025 00:00:00 GMT

import { LinkPreview } from 'astro-pure/advanced'

前言

在上一讲中，我们介绍了 Isaac Sim 的安装，并且使用一个简单的程序验证了安装的正确性。读者大可兴奋地期待着本章内容讲解程序的编写，并且可以上手编写自己的程序，然而遗憾的是，这节内容将是概念相关的内容，尽管相对枯燥，但是理解这些概念，对于我们后续的实践是至关重要的。

万物皆 Prim

古希腊的一位哲学家兼数学家，毕达哥拉斯，曾经说过：“万物皆数”。这句话听上去十分带感，因此在这里对这句话进行一定的化用，在 Isaac Sim 中，万物皆 Prim。

我们无法找到某个准确的翻译来翻译这一概念，不过在科研界，这种现象比比皆是，因此也就不过多纠结了。要是想要寻求一个恰当的类比，学习过 Java 的读者可能会想到 Java 中的 Object 类，在 Java 中一切的变量都是 Object 类的实例，这是一种很好的迁移，在 Isaac Sim 中，一切的物体都是 Prim 类的实例。

Isaac Sim 的本质是对于物理世界的模拟，其中的关键在于模拟物理世界中的各种元素，例如物体、光照、纹理等，而在 OpenUSD 的管理范围下，这些东西都可以用 Prim 来替代，进一步在 Prim 上延伸出更多的种类，诸如 XFormPrim、RigidPrim 或者 Shader 等。Isaac Sim 搭建在 OpenUSD 的框架上，可以模拟 OpenUSD 中的物体的交互，使用 PhyX 进行模拟，并且使用管线对于视觉进行渲染等。

对于每一个 Prim，其包括几个关键的属性，即 prim_path, API 以及 Attributes。

Prim Path

在 Isaac Sim 中，每一次的程序运行会打开某种实例，从意义的角度来说，可以称之为 Scene，也就是一个场景，而从定义上来说，我们剋称之为一个 Stage。在一个 Stage 下面包括若干的 Prim，这些 Prim 以树状结构组织，每一个 Prim 作为一个结点，因此对于任何一个 Prim，可以使用其递归父结点的名称来表示其路径，例如 /World/Table/LeftLeg 表示的是在 World 下面的一个 Table 下面的一个左腿，更进一步，在这个 LeftLeg 下面可能包括 Mesh 以及 Tex，前者表示左腿的形状信息，而后者表示左腿的纹理信息。

在 Isaac Sim 中，所有的 Prim 的 prim_path 都是唯一的，因此可以通过 prim_path 来访问任何一个 Prim。

import numpy as np
from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": False}) # we can also run as headless.

from omni.isaac.core import World
from omni.isaac.core.objects import DynamicCuboid
from omni.isaac.core.utils.prims import get_prim_at_path

world = World()
world.scene.add_default_ground_plane()
cube1 = world.scene.add(
    DynamicCuboid(
        prim_path="/World/cube1",
        name="cube1",
        position=np.array([0, 0, 1.0]),
        scale=np.array([0.5015, 0.5015, 0.5015]),
        color=np.array([0, 0, 1.0]),
    ))

cube1_prim = get_prim_at_path("/World/cube1")
simulation_app.close()

在这里面，我们创建了一个程序实例，即通过 simulation_app = SimulationApp({"headless": False}) 创建了一个非无头模式的应用实例，然后通过 world.scene.add_default_ground_plane() 创建了一个地面。DynamicCuboid 是一个用于演示很方便的类，其可以创建一个立方体，这个立方体具有重力以及碰撞箱。

读者可以使用代码：

...
world.reset() # [!code ++]
for _ in range(10): # [!code ++]
    world.step(render=True) # [!code ++]
simulation_app.close()

来查看这个立方体在重力作用下的运动，在这里不过多解释，后续会详细讲解，在这里可以理解为 step 是前向模拟一次。

大多数的实际上在操作过程中我们遇到的实例，都是经过了封装的内容，例如大多数的资产都会通过 XFormPrim 进行封装，这些类都具有属性 prim_path，也就可以直接获得他们的 Prim Path 了，例如：

...
print(cube1.prim_path) # [!code ++]
print(cube1_prim.GetPath()) # [!code ++]

API 与 Attributes

在了解了 Prim 的基本属性 Prim Path 之后，我们也有必要了解一下，是什么区分了不同的 Prim，让他们具有了不同的功能。

在 Isaac Sim 中，API 是 Prim 的一个属性，一个 API 被添加之后，Prim 就可以被施加若干的属性，在这里以物理属性为例，以下代码可以查看一个 Prim 的 API 列表：

...
print(cube1_prim.GetAppliedSchemas()) # [!code ++]

可以得到输出：

['MaterialBindingAPI', 'PhysicsCollisionAPI', 'PhysicsMeshCollisionAPI', 'PhysxCollisionAPI', 'PhysicsMassAPI', 'PhysicsRigidBodyAPI', 'PhysxRigidBodyAPI']

不难发现其包含的 Rigid 以及 Collision 相关的 API。

每创建一个 API，其就会自动创建若干的属性，对于一些属性来说，其默认就会被创建，并且被设置为默认值，而其他的属性则需要手动创建，以应用这些变换。在后续的使用中，我们主要会对于 Physics 相关的一些 API 进行处理，这将在后续进行详细的展示。

话题回到当下，于是也就不难通过函数来获得这些 API 下面的 Attribute 的内容：

...
print(cube1_prim.GetAttribute("physxRigidBody:maxLinearVelocity").Get()) # [!code ++]

返回为 inf，也就是对于最大速度没有限制。读者不难注意到 physxRigidBody:maxLinearVelocity 是 physxRigidBody 这个 API 下面的一个属性，但是这个名字究竟是如何获得的呢？在这里指路文档，其某一处包括这一说明。Isaac Sim 的文档中对于每一个 API 都有详细的介绍，而几乎没有任何的教程。当然，我们会使用的 Attribute 将在后续向大家详细的介绍，无需紧张。

总结

通过本章内容，读者不难对于 Isaac Sim 有一个宏观的理解：Isaac Sim 通过 OpenUSD 管理一系列的 Prim，使用 API 以及 Attributes 来管理这些 Prim 的属性，并且通过其自身的特性，对于这些内容之间的交互（如物理碰撞或者渲染）进行处理。我们还没有详细讲解 step 相关的内容，这便是 Isaac Sim 的仿真的运行，通过这些内容，我们可以在一个场景中，添加物体、光照、纹理，模拟重力以及碰撞，从而运行良好的仿真。

Isaac Sim 踩坑日记

Mon, 19 Aug 2024 00:00:00 GMT

前言

因为科研的需要，所以说需要安装一下仿真的环境，领域里面最通用的环境就是 Isaac Sim 了，但是据说也比较复杂，老师推荐了另一个 simulator（Sapien），说是比较轻量级，但是为了以后和其他工作更好地对接，以及之后估计半年多一年还是远程，有必要成为模拟器大师，于是挑战一下自己。

这篇日记依然和 Paper Reading 系列一样，应该是无限期更新的，包括说正常的安装以及操作的一些记录（对于一些涉密的内容，不会涉及），一些模块的学习，以及一些报错的整理。一方面是给自己作为一个笔记，一方面也是假如说有将来的同学进组，可以有一些更加明确的指引。毕竟本人是英文苦手，看英文的速度完全做不到“扫过”，所以还是有必要记录一下的。

一些你有必要知道的网址：

Issac Sim 文档：https://docs.omniverse.nvidia.com/py/isaacsim/index.html
Issac Sim 教程：https://docs.omniverse.nvidia.com/isaacsim/latest/core_api_tutorials/index.html
mplib 文档：https://motion-planning-lib.readthedocs.io/latest/index.html
Franka urdf：https://github.com/haosulab/ManiSkill/tree/v0.5.3/mani_skill2/assets/descriptions，需要使用其中的 panda_v2.urdf 并且下载 franka_description/meshes。

安装 Isaac Sim

首先先简单说一下什么是 Isaac Sim，这是一个在 Nvidia 的 omniverse 下的一个 App，可以完成各种的仿真，也支持 ROS 的接口（虽然我目前还不知道 Embodied 的这一套流程是否和 ROS 有接壤），所以说做机器人这方面，用这个的比较多。而且这个东西是可以生成 image（镜像）并且运行在服务器上的，所以说各种意义上的符合具身智能领域的各种需求。

既然是 Nvidia 的产品，拥有一个 Nvidia 的账号也就是必须的事情了，一般来说还是推荐通过谷歌邮箱之类的 Mail 去注册，在这里不去赘述这个事情。

环境概述

按照常规的教程来说，反正首先概述一下环境。本人的环境如下，作为参考，当然，这套环境貌似在一些性能上不是很可以，不知道能否坚持到最后：

以下是 CPU 以及系统信息：

root:~$ linuxlogo -a
              .-. 
        .-'``(|||) 
     ,`\ \    `-`.               88                         88 
    /   \ '``-.   `              88                         88 
  .-.  ,       `___:    88   88  88,888,  88   88  ,88888, 88888  88   88 
 (:::) :        ___     88   88  88   88  88   88  88   88  88    88   88 
  `-`  `       ,   :    88   88  88   88  88   88  88   88  88    88   88 
    \   / ,..-`   ,     88   88  88   88  88   88  88   88  88    88   88 
     `./ /    .-.`      '88888'  '88888'  '88888'  88   88  '8888 '88888' 
        `-..-(   ) 
              `-` 

Linux Version 5.15.0-117-generic, Compiled #127~20.04.1-Ubuntu
16 2.3GHz Intel i7 Processors, 128TB RAM, 73728 Bogomips Total

由于本人更换系统的意愿（见 Strange Bugs，Ubuntu 20.04 日常使用已经很不方便），在安装 Isaac Sim 之后的内容均在 Ubuntu 22.04 上进行，如存在其他版本的信息，会专门注明补充。此系统的信息如下：

root:~$ linuxlogo -a
              .-. 
        .-'``(|||) 
     ,`\ \    `-`.               88                         88 
    /   \ '``-.   `              88                         88 
  .-.  ,       `___:    88   88  88,888,  88   88  ,88888, 88888  88   88 
 (:::) :        ___     88   88  88   88  88   88  88   88  88    88   88 
  `-`  `       ,   :    88   88  88   88  88   88  88   88  88    88   88 
    \   / ,..-`   ,     88   88  88   88  88   88  88   88  88    88   88 
     `./ /    .-.`      '88888'  '88888'  '88888'  88   88  '8888 '88888' 
        `-..-(   ) 
              `-` 

Linux Version 6.8.0-40-generic, Compiled #40~22.04.3-Ubuntu
16 4.6GHz Intel i7 Tigerlake Processors, 31.1GB RAM, 74k Bogomips

以下是显卡信息，因为是笔记本，我的显卡是 8GB 的 RTX 3070 Laptop：

root:~$: nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Feb__7_19:32:13_PST_2023
Cuda compilation tools, release 12.1, V12.1.66
Build cuda_12.1.r12.1/compiler.32415258_0

我的电脑是 Dell 的 Alienware m15 R6。

下载 omniverse-launcher

就像是之前说到的一样，Isaac 的 omniverse 下的一个 App，所以说在安装 Isaac 之前要先安装 omniverse-launcher，也是比较简单的，在官网 https://www.nvidia.com/en-us/omniverse/download/ 进行安装就好。进入下载页面之前会要求输入一些个人信息，随意写一下就好，理论来说 nvidia 账号中已经包含了这些内容，所以会自动填写。

下载下来之后是一个 .AppImage 的文件，按照我的惯例，就直接运行了：

cd ~/Downloads
wget https://install.launcher.omniverse.nvidia.com/installers/omniverse-launcher-linux.AppImage
sudo chmod +x omniverse-launcher-linux.AppImage
./omniverse-launcher-linux.AppImage

对于 Ubuntu 22.04，可能会报错 AppImages require FUSE to run.，按照提示信息，安装 sudo apt install libfuse2 即可。

运行之后产生登录页面，本质上还是 nvidia 账号，点击 LOG IN 之后会跳转到网页，输入帐号密码登录即可。然后同意若干的协议，进入如下界面：

这些路径按照默认配置即可。选择确认，进入主界面：

其中比较重要的是 Library/Exchange/Nucleus，第一个是已经安装的内容的管理，第二个是安装内容的途径，第三个是一种中央数据库和协作引擎。

安装并启动 Isaac Sim

进入 Exchange 进行安装，首先安装 cache，搜索之后下拉版本，选择 2023.1.0，并点击 install 即可。

然后点击 Nucleus，选择 Add local Nucleus Service：

会要求设置 path 以及 admin account，自行设置即可。

最后在 Exchange 中安装 Isaac Sim，同样是搜索，版本选择 2023.1.0-hotfix.1，点击 install。

本人目前选择安装 4.1.0 版本，且之后内容均在此版本下进行。

在 Nucleus 下载完毕之后，可以找到两个本地的服务：

其中选择 Settings，可以在网页中看到如下内容：

值得注意的是，在第二次或者以后启动的时候，可能会出现进入其 Settings 链接 http://localhost:3080/ 之后为一片白色的情况，而 Cache 没有正确启动，导致后续的程序无法运行，解决方法之一是，可以进入其子窗口 http://localhost:3080/cache，再点击上方的 Apps，之后 Restart all 即可。

假如出现问题，如显示 Stop 或者 Error，请检查之前说的版本问题。假如 cache 版本不对，重新卸载并且安装，然后点击 Launch 即可。

选择文件夹图标的内容，可以在网页中看到如下的内容：

均确认无误之后，可以在 Library 中选择 Isaac Sim 并且点击 Launch。

Standalone Pick and Place 代码实现

此章节在 Ubuntu 22.04, CUDA 12.1, cudnn 9.3.0, Isaac Sim 4.1.0, cache 2023.1.0 下运行。

接下来就是写代码的环节了，一般来说这个代码有两种实现的方式，一种是在 Isaac Sim 里面添加一个 User Example，另一种是直接使用一个脚本，也就是 standalone script，这里面推荐使用脚本。因为 User Example 的方法必须要使用 GUI 才可以启动，还是不太方便，后续我们肯定是希望这个程序可以摆脱 GUI，当然，必要的时候也可以唤出。

第一次需要找到你的 Isaac Sim 的环境在哪里，因为 Isaac Sim 使用了自己的 python 环境，因此需要找到他的解释器，假如你是默认安装的路径，那么应该可以看到路径:

echo /home/`whoami`/.local/share/ov/pkg/isaac-sim-4.1.0

但是假如不是，可以进入 Isaac Sim 软件，随便点击一个上方栏的 Isaac Examples，并且 Open Containing Folder 即可。

例如 hello world 这个 example，这个文件夹应该在 isaac-sim-4.1.0/exts/omni.isaac.examples/omni/isaac/examples/hello_world 中，以下全部的操作视作在 isaac-sim-4.1.0 下进行。

创建项目

首先先创建我们接下来的程序的文件夹：

mkdir -p Isaac_learning
touch Isaac_learning/demo.py
code .

Hello World

打开这个新建的文件，在里面输入

from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": False})

from omni.isaac.core import World
world = World()

while simulation_app.is_running():
    world.step(render=True)

simulation_app.close()

这是一个最简单的程序，可以创建出来一个正常的模拟器的界面，可以进行运行：

./python.sh Isaac_learning/demo.py

接下来需要做的事情就是在里面添加东西了。

在这里简单介绍一下 Isaac Sim 的物体的基本组织结构，基本上可以说，Isaac Sim 里面的物体都是由 Prim 组成的，也就是所谓的 XFormPrim，一般来说，存在一个 world，一个 world 里面会存在 scene，scene 里面的绝大多数内容都是 prim，可以理解为 isaac sim 里面的 object，同时支持嵌套。

添加物体

不过对于最基础的内容，我们存在一些 api 可以使用，更多的内容都可以在文档中查询，所以让我们简单修改代码，在里面加入一个地面和一个方块。

from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": False}) # we can also run as headless.

from omni.isaac.core import World
from omni.isaac.core.objects import DynamicCuboid

world = World()
world.scene.add_default_ground_plane() # [!code ++]
cube1 =  world.scene.add( # [!code ++]
    DynamicCuboid( # [!code ++]
        prim_path="/World/cube1", # [!code ++]
        name="cube1", # [!code ++]
        position=np.array([0, 0, 1.0]), # [!code ++]
        scale=np.array([0.5015, 0.5015, 0.5015]), # [!code ++]
        color=np.array([0, 0, 1.0]), # [!code ++]
    )) # [!code ++]

while simulation_app.is_running():
    world.step(render=True)

运行一下，不难发现里面多出来了一个方块和一个地板，也就是这两行的效果。一个物体有两个经常使用的属性，一个是 Rigid Body，也就是物体是否会受到力的影响，一个是 Colliders Preset，也就是物体是否会有碰撞。DynamicCuboid 默认具有这两个属性，所以你会看到它掉在地板上，而地板是不受到重力影响的，但是有碰撞，所以你不会看到地板和物体一起掉下去，而物体也不会穿过地板。

同时可以注意到的是 prim_path 以及 name，第一个描述了 cube 的 prim 的嵌套关系，因为 world 也是一个 prim，而这个物体的名字则叫做 cube1。

添加机械臂

同样的方法，我们可以在里面加入一个 Franka，这也不难：

from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": False}) # we can also run as headless.

from omni.isaac.core import World
from omni.isaac.core.objects import DynamicCuboid
from omni.isaac.franka import Franka # [!code ++]

world = World()
world.scene.add_default_ground_plane()
cube1 =  world.scene.add(
    DynamicCuboid(
        prim_path="/World/cube1",
        name="cube1",
        position=np.array([0, 0, 1.0]),
        scale=np.array([0.5015, 0.5015, 0.5015]),
        color=np.array([0, 0, 1.0]),
    ))
franka = world.scene.add(Franka(prim_path="/World/Franka", name="franka")) # [!code ++]

world.reset() # [!code ++]
franka.gripper.set_joint_positions(franka.gripper.joint_opened_positions) # [!code ++]

while simulation_app.is_running():
    world.step(render=True)

其中 world.reset() 应用了全部的变换，并且将全部的物体都重置到初始状态，这一步骤是很重要的初始化操作，需要记住。而 world.scene.add(Franka) 则是将机械臂添加到场景中，franka.gripper.set_joint_positions(franka.gripper.joint_opened_positions) 设置将机械臂的夹爪打开。

这里面需要注意的是，假如说你只是想要看这个机械臂，你直接 Franka 就可以创建一个机械臂，但是假如说你想要 control，就需要使用 world.scene.add(Franka) 这一步，不然会报错。

添加控制器

最后，让我们完成最后的一个环节，添加一个控制器。真实的控制器实现需要通过更加复杂的内容来进行，但是我们现在的目标并不复杂，只是希望给出一个简单的控制器，来完成一个垂直的 pick and place 的任务。Isaac Sim 提供了一个 PickPlaceController，可以完成这个任务。修改程序：

from isaacsim import SimulationApp
simulation_app = SimulationApp({"headless": False}) # we can also run as headless.

from omni.isaac.core import World
from omni.isaac.core.objects import DynamicCuboid
from omni.isaac.franka import Franka
from omni.isaac.franka.controllers import PickPlaceController # [!code ++]
import numpy as np

world = World()
world.scene.add_default_ground_plane()

cube1 =  world.scene.add(
    DynamicCuboid(
        prim_path="/World/cube1",
        name="cube1",
        position=np.array([0, 0, 1.0]),
        scale=np.array([0.5015, 0.5015, 0.5015]),
        color=np.array([0, 0, 1.0]),
    ))

franka = world.scene.add(Franka(prim_path="/World/Franka", name="franka"))

controller = PickPlaceController( # [!code ++]
            name="pick_place_controller", # [!code ++]
            gripper=franka.gripper, # [!code ++]
            robot_articulation=franka, # [!code ++]
        ) # [!code ++]

world.reset()

franka.gripper.set_joint_positions(franka.gripper.joint_opened_positions)

while simulation_app.is_running():
    position, orientation = cube1.get_world_pose() # [!code ++]
    goal_position = np.array([-0.3, -0.3, 0.02575]) # [!code ++]
    current_joint_positions = franka.get_joint_positions() # [!code ++]
    actions = controller.forward( # [!code ++]
        picking_position=cube_position, # [!code ++]
        placing_position=goal_position, # [!code ++]
        current_joint_positions=current_joint_positions, # [!code ++]
    ) # [!code ++]
    franka.apply_action(actions) # [!code ++]
    world.step(render=True)

simulation_app.close() # close Isaac Sim

运行一下，可以看到机械臂已经成功将方块拿起，并且放置到了目标位置。

不过先不管这些，让我们来分析一下这个程序。我们添加了一个 Controller，这个 Controller 需要一个 gripper，一个 robot_articulation，也就是其需要知道机械臂的夹爪是啥，以及机械臂本身的结构。

之后我们在循环里面增加了不少的内容，首先我们获得了 cube 的 position 以及 orientation，get_world_pose 是大多数的被封装的 prim 都会具有的一个方法，返回其在 world frame 下面的位置以及姿态，其中姿态是一个 w 在前的四元数。然后我们设置了一个目标位置。机械臂的当前角度可以通过 get_joint_positions 获得，然后我们使用 controller 的 forward 方法，输入了 picking_position，placing_position，以及 current_joint_positions，这里返回的是一个 ArticulationAction，这是一个包括一个序列（比如说对于 Franka 来说是 7 DoF + 2 个夹爪的关节）的 position 信息，以及一个等长的速度的序列。之后我们使用 franka.apply_action 方法，将 actions 应用到机械臂上。

world.step 是整个程序的灵魂，它完成了整个物理引擎的更新，以及渲染的更新，所以假如说你想要在程序中看到机械臂的运动，就需要使用这个方法。当然，有的时候，比如说你的程序本身是一个强化学习的程序，那么渲染视觉信息并非是必须的，所以你可以使用 world.step(render=False) 来关闭渲染，可以极大地提高速度。

总结

这是一篇很久之前我刚开始接触 Isaac Sim 的时候写的笔记，现在来看，事实上很多内容不是必须的，其中 Pick and Place 的代码实现其实是我当时按照 Isaac Sim 教程的章节进行实践的时候的记录。

不过有必要向读者指出的是，Isaac Sim 的教程也就仅仅到了这种深度，之后讲了多个机器人的操作，然后就什么都没有了，事实上这完全还没有到入门的门槛，在实际中这种级别的问题实在是像玩一样。不过假如说这个实现是一个好的介绍，你作为一个新手，不会如何安装 Isaac Sim，没有了解一些基础的功能，那么还是可以尝试一下，而假如你是一路顺着博客看完了也写完了，感觉怎么样？是不是有一些入门的成就感。不过假如说你想要进行更加深入的了解，还是需要去看官方的文档，以及或许我将来的 Blog，尽请期待吧。

周记 Week28

Tue, 14 Jan 2025 00:00:00 GMT

import { CardList } from 'astro-pure/user'

再次进行一次周记的记录，这一次倒也不能说隔了很久了，只能说在时间允许的范围之内给出了更新，但是，好吧，这一周确实没有什么可以说的。

考试

首先是考试周的结束，在这周的前期就完成了最后一门考试，也就是自然语言处理，考试内容应该不算很难，希望结果也不错。

可以说在漫长的时间之后，这个学期的全部课内学习也就快要告一段落了，然而还有一个令人讨厌的小尾巴，包括了三个实验报告、一个综述（来自 DSP）以及一个大作业的汇报（来自 NLP）。虽说这些东西都是文书工作，只要花费一定的时间肯定可以完成，但是总归还是需要花费一定的时间的。同时人的潜意识里又总喜欢认为这种事情其实无足轻重，从而懒得去做，但是真轮到做起来又会耗费很多时间，至于不做，自然也会在心里放着一个负担，做其他事情都不踏实。但是至于现在还是先休息一会，等到 DDL 前再去考虑吧。

以及除此之外，虽然说我的任务已经完成了，但是乐小姐距离考试结束还有很久的路要走，一直到这周结束才把全部考试考完，我这边一边要处理科研，也要帮助她那边的一些考试的准备，比如说整理他的往年选择题及简答题答案，这也是要消耗时间的。

科研

科研方面可以说还是显得比较古井无波，依然是之前需要去做的一些事情，写代码，以及配合其他同学的工作。一件比较难受的事情在于，不能向导师说自己因为要帮助女朋友复习考试而耽误了科研，毕竟这确实不是一个很正当的理由，不是很合适，因此也就只能默默地承受。

总的来说这周是考试周的结尾，我也顺便定下来了自己的寒假计划，发在了交大门（西交的一个论坛），在这里也写一份：

之后也在这个 Blog 里面更新寒假计划进度吧，然后在寒假结束的总结里面再回顾一下。

Paper Reading: Embodied AI 1

Sat, 26 Oct 2024 00:00:00 GMT

export function FunctionTable({ id, tldr, vim, rank, children }) { return ( Arxiv ID <a href={https://arxiv.org/abs/${id}} target='blank' rel='noopener noreferrer'> {id} {tldr} {children} 推荐指数： { // print stars (count rank) Array.from({ length: rank }, () => ( )) } ) }

前言

Embodied AI 是一个比较新的领域，而且可能横跨的任务也很多，在这方面做的事情来说，可能一些和具身智能具有比较高相关度的 perception 任务，也都会放在其中。

RT-1

RT-1 讲实话结构并不是很好，但是一是在于数据量大，二是在于在实体跑起来了，于是的话，参考价值也挺高。简单概述一下结构，是用卷积 + FiLM 来进行的文本和图像的融合，文本编码器的输出用来作为 FiLM 的参数，然后调制卷积。之后获得 Tokens 再过 TokenLearner，输入进一个 transformer 里面，获得最后的自由度。

这种架构在当下貌似已经不流行了，所以说一下局限性，也就当作是 insight 了。一是在数据量巨大的情况下，多模态基本就是撑死胆大的饿死胆小的，这种复杂的结构，本质上还是担心模型的表征能力不强，或者模型没有能力输出自由度这种级别的信息，但是显然从后面来看实在是多虑了，transformer 确实有大一统的潜力。二也是在于，这种设计其实封死了后面的拓展性。机器人的数据肯定是稀少的，遥想当初 VLMo 就是通过引入单一的视觉和文本数据来进行 scale，而 RT-1 则是完全不给除了自由度之外的数据留活路了，于是后面就很难再进行拓展了。

参考资料：

RT-1 - https://zhuanlan.zhihu.com/p/652897511

RT-2

RT-2 的结构就十分的合理了，使用一个大的 transformer（其实也就是 LLM）接收文本和图像的编码输入，之后获得特殊的 token 用来表示动作，就可以直接进行控制了。这种操作使得其可以同时使用多模态的数据以及机器人的数据，所以说 scale up 的效果非常不错，剩下的就不需要过多赘述了，就是正常的训练。

参考资料：

RT-2 - https://zhuanlan.zhihu.com/p/651670131

VIMA

论文链接：https://arxiv.org/abs/2210.03094

VIMA 也算是比较早期的工作了，没有使用 LLM，但是是有一定的可取之处的。首先是在于使用 object token，object token 的生成在使用 Mask R-CNN 之后包含图像信息即 ViT 编码之后的结果以及 bounding box，可以说同时包含了物体和位置信息，之后还储存了一些历史信息，可以进行长任务。虽然说 RT-2 也可以上下文理解，但是 VIMA 直接使用原本的信息，肯定表征更多一些。

一个 insight 是 object token 肯定是一种很好的方式。以往的多模态输入都是先图像后文本，object token 将两个交叉在一起，肯定会有更好的效果，也更加将图像融入了文本的体系里面，是否有更加优雅的方式来进行 object token 的生成或许会是一个问题。

参考资料：

VIMA - https://zhuanlan.zhihu.com/p/659016759

SayCan

SayCan 可以说是在做这种规划任务里面比较早的了，但是也存在一些问题。首先大概的流程就是，先把需求提出来，这个时候模型本身存在一个动作空间，那么 LLM 就可以从这个动作空间里面给出不同的推荐，但是一个问题在于，由于 LLM 不清楚当前的情况，所以说可能无法很好地给出能够执行的结果，这个时候可以使用另一个模型，或者说是一个价值函数，来去评判在当前情况下这些动作的价值。那么这个价值函数是使用了环境信息的，价值大模型的推荐结合在一起，就生成了一个布置合理，而且可以完成的动作。

这里面的 insight 其实不多，或者说显而易见，想要让 LLM 去参与到动作的生成，固然其本来就具有一定的规划能力，但是这种能力在没有现场情况的了解下是施展不开的，于是可以简单地使用价值函数来作为一种当前情况的引入，本身需要训练的东西也很少，可以说是十分的轻量化。

参考资料：

SayCan - https://zhuanlan.zhihu.com/p/655418399

Language Models as Zero-Shot Planners

这篇文章也是在 planning 领域的内容，某种程度上也可以说是 low fruit，甚至说不需要任何的训练，就是纯粹的 prompt，不过目测感觉还是要经过一些 finetune 的。

大概的思路就是，先让一个模型给出一些计划，然后这些计划通过另一个模型翻译成在 action set 里面的最接近的内容，然后执行。唯一不多的 insight 在于 LLM 通过 high-level 的交互就可以进行近似输出。

参考资料：

Language Models as Zero-Shot Planners - https://zhuanlan.zhihu.com/p/656399047

PaLM-E

PaLM-E 可以说就是就是对于上述种种猜想的一个实际的体现，也就是说一方面仅仅通过多模态的 prompt 进行输入，这里面的输入包括文字/环境/图片，也就是全部的模态，之后输出的是 high-level 的 planning，再由其他的执行器去完成 low-level policy。

参考资料：

PaLM-E - https://zhuanlan.zhihu.com/p/662935514

ViLA

讲实话，我不是很理解 prompt 类型的工具，不过确实一些这种类型的工作可以有非常好的性能。总体来说，ViLA 输出的也是 high-level 的 policy。大概的流程就是输入当前的图像以及任务，还有历史上已经完成的任务，然后交给 gpt-4v，使用 CoT 分析一下当前的场面，然后结合分析给出动作，再交给执行器。

个人感觉 prompt 类型的工作实际上还是解决任务，而没有带来比较振奋人心的 insight（当然，CoT 这种属于出色的 prompt 工作），这毫无疑问是令人沮丧的，但是确实也刷新了性能，并且有效利用了那些已经性能很好的工作。

CoPa

CoPa 的工程感更足，把大量的模型结合在一起。总的来说首先是一个物体抓取，接下来是路径规划。对物体抓取，CoPa 给出了一个从粗到细的分割流程，具体还是使用 SAM 和 gpt 配合，最后筛选出来一个抓取的细节部位，然后用抓取姿势的生成器生成姿势。就有点类似于把锅拿起来，需要握住的是锅把一样。接下来是一个路径的规划，这里面也是先识别了各种物体的位姿，然后将这些内容画在图上，估计这种选择是因为不信任大模型的数学能力，反而是图像比较直观，容易理解。之后通过这种细粒度的指示，大模型就可以给出更加合理的建议，类似于之前是将锤子放在钉子上，现在可以是将锤子和钉子对齐，而且根据识别的位姿，或许可以精确到距离。然后交给执行器。

一个 insight 是对于细粒度信息的追求，很多时候直接的训练不能获得到这么细粒的信息，而 VLM 也不具有这种表征能力，所以说这种用其他模型的表征方式或许确实无法替代。

PointLLM

PointLLM 可以是说十分标志的工作了，属于是中规中矩，但是效果确实很不错。就像是一般的 VLM 一样，但是只不过是将图像的模态输入换成了点云，然后使用 point encoder，总体来说改变并不算多。可以说这篇工作的诞生是符合直觉的，点云模态也可以作为一种语言进行建模。

EmbodiedGPT

EmbodiedGPT 也是一篇比较符合直觉的工作，但是不是那么的极简。本身是按照 BLIP2 的范式来的，用了一个 Embodied-Former（其实也就是 Q-former）来连接 ViT 和 LLaMA3，来做一个桥梁，之后输出一个 instance information，一个 CNN 处理图像输出一个 global information，两个 concat 一下作为 low-level policy 的输入。

本身值得说的是，一方面这种设计，为什么不单独通过 embodied-former 直接输出的 instance information 呢？毕竟也是通过了 ViT 的信息编码的，之所以还需要一个 CNN，大概率是这样做了之后发现表征能力不强，所以需要更加显式的提供一些信息。

RT-Trajectory

RT-Trajectory 是一个输出 low-level policy 的模型，使用了 RT-1 的框架作为动作的输出，在此之前会输入之前和当前的帧以及一个工作轨迹，这里面动作轨迹通过 R 和 G 两个通道表征了时间顺序以及高度信息，和图像一起输入。因为从文字 prompt 改为了图像（轨迹），所以本质上具有更高的细粒度，性能更好也很正常。

Im2Flow2Act

Im2Flow2Act 算是一篇比较有意思的工作，本身应该是 ATM 的后续工作，不过因为糟糕的阅读顺序，我其实是先阅读的这一篇。

因为确实需要的前置知识还是很多的，所以说先暂且形而上学的理解一下这个问题，后续估计需要详细的看一看相关的论文。Im2Flow2Act 的核心思想在于，首先根据任务生成对象流，对象流就具有很高的细粒度了，之后对象流通过模仿学习来获得动作规划。

这篇工作使用了 Diffusion 里面的动作生成（视频生成）作为流生成的方法。首先先框出来一个物体，在物体上面可以采样若干的关键点，这些点就组成了一个 $H\times W$ 的图片，但是这个图片不是正常的图片，和RT-Trajectory 里面的轨迹图片一样，是通过像素表征了别的信息，这里面就是图像系下的坐标和可见度。那么根据条件输入，就可以生成视频了，而这个视频本质上表征的是这个物体在不同时刻的空间信息。

流生成了之后，基本上是直接使用模仿学习进行的运动规划，用了 Transformer 去编码当前帧的状态，再用 Transformer 去和任务流做融合，来生成剩余的流，最后交给 Diffusion Policy 去生成动作。

粗浅的凑一下的话，创新性在于使用生成式的方法生成高细粒度的物体流，显然是优于 RT-Trajectory 的，同时第二阶段的时候使用当前的状态和任务流做融合，有一种 nav 中全局规划和局部规划的意味，但是并不完全。总的来说是一篇 based 轨迹的动作规划的很不错的工作，而且相较于 RT-Trajectory，更有细粒度，而且保证了公平性。

LLARVA

LLARVA 相较于之前的工作，可以说也是一个比较符合直觉的工作，使用指令调优（IT）的方法进行训练，也是处理了 OXE 这个数据集。从 Pipeline 也不难看出，LLARVA 是一个比较经典的架构，基本上也是 LLAVA 的框架，训练一个 projection layer 以及后面的 Transformer 做对齐以及模态的融合。

其创新点其实有点 World Model 的意思，通过让模型预测将来的视觉轨迹这种更具细粒度的内容，之后输出 Action，这明显是一个更加困难而且包含了更多未来信息的任务，所以效果会更好也是显而易见的。当然，本身 IT 的方法，自然也可以让模型更好地完成任务就是了。

ATM

这篇论文可以说影响力还是很拉满的，对于后续的一些轨迹 based 的工作，比如 Im2Flow2Act，明显是有很大的影响的，本身也是拿了 RSS 的满分，不过因为理解了之前的这些论文，这一篇其实很好理解。

本身的话，ATM 没有采取像是 Im2Flow2Act 一样的物体轨迹的预测，这也比较好理解，全局的点一方面或许可以具有全局的动作视野，而另一方面，全局的点也会比较好获取一些。本身的方法就是使用点跟踪的技术对图像里的点进行跟踪来生成数据集，然后让一个 track transformer 来预测点的轨迹。接下来就是一个正常的 Trajectory Conditional Policy，本身的实现，论文里也说了，也是使用 cls token 去做全局表征（ViT like），然后用了 track prediction 去作为额外的 condition 进行 fusion。

从创新点来说，这篇算是开山之作之一了，引入了 Track 作为中间的表征以及条件，并且可以通过数据集的一些生成的技术进行标准的损失计算，因此在监督下训练提升的很好也是意料之中了。一方面增加了更具细粒度的输入，一方面这种细粒度也体现在任务的难度上（hard task），二者共同导致模型的简单易用。

Track2Act

老实说，我并没有感觉到 Track2Act 和 ATM 之间是否真的具有较大的差异，二者的方法实际上是近似的，也就是先预测轨迹，之后将轨迹作为动作生成的条件。首先还是进行点的预测，在这里使用的是 DiT，随机 sample 一些点和轨迹，然后就可以进行生成了，将当前状态、目标以及迭代次数都作为 adaptive conditioning 输入。

有了这些点之后，就不难给出一个刚性变化了，然而刚性变化注定不太靠谱，于是乎加入了一个残差策略，再用另一个模型的预测来修正之前的结果。按照文章的表述，残差控制可以增加准确度并未首创，不过确实是一个纠正偏差的好方法，前面的轨迹生成并求刚性变化，获得一个变化之后加上残差，这本质上其实和 ATM 直接通过一个模型进行 action 的求解是等价的，毕竟刚性变化同样可以用模型来进行表征。

Extreme Cross-Embodiment

这篇文章的感觉有点野心很大故事丰满但是后继乏力的感觉。基本的故事是说要实现一种跨不同机器人模态的表征学习，但是实际上只是视觉导航以及抓取这两种任务，甚至并不涉及灵巧手，这并不能算十分的跨模态。本身的想法就是说，移动和抓取的本质上都是让相机坐标系发生了坐标系变换，实际上是等价的（虽然其实并不等价，因为机械臂受到物理尺寸限制），所以说可以统一，然后就开始直接训练一个模型，输入是 state 和 goal，之后直接融合，获得两个目标，一个是机械臂的位姿（DiT），一个是距离的预测（MLP），也算是将这两个任务统一了一点。

之前的任务，绝大多数都在处理单一的机器人下的任务，一般为机械臂，这篇的创新点也就止步于同时使用两种训练数据了。然而或许可以思考这样一个问题，假如说机器人的种类是可以穷尽的，或者说常见机器人的种类是可以穷尽的，一种 BEiTV3-like 的模型结构或许是可能的，直接在 Transformer 中引入 EMOE（Embodied MOE），然后同时使用这些全部的数据。

ECoT

ECoT 这篇文章其实算是中规中矩，就是正常的 CoT，但是加入了 Embodied 的条件，能够 work 也是意料之中，或许其生成 CoT 数据的操作是可以借鉴的吧。

VoxPoser

VoxPoser 这一篇其实我不太理解，其本身是通过 LLM 以及 VLM 获取图像以及任务的表征，并且想要输出两张价值图，其中 VLM 是传统的 VLM，类似于开集检测器，可以获得物体的位置，之后 LLM 来去处理这些位置，获得两张价值图，这两张价值图进一步引导模型进行轨迹规划。疑点在于，整个的框架的表征被极大的压缩了，本来丰富的视觉特征被压缩到了必要的物体上，之后被 LLM 处理为了价值图，个人感觉这套体系并不稳定，任何一环出了差错，整体就崩掉了。然而使用价值图作为引导是值得参考的，这为模型的轨迹规划提供了更明确的提示。

MOO

MOO 的 pipeline 也很简单，本身甚至可以说设置了一个 hard task，而这都是为了设置一个通用的接口。因为 MOO 本身使用了 RT-1 的架构，所以可以理解为，其本身对于复杂的语言表征能力有限，而且不同的任务中，这些语言的格式可能也不相同。不过这个接口，我个人感觉就是本身就是 RT-1 已经具备的。

大致的流程就像 pipeline 里面描述的一样，其可以将 Mask 作为一个通道融到图像里面，然后将动词提取出来。一个小的疑惑在于，比如说图中的任务，move 是一个向量，没有语序的话，模型如何理解这种顺序呢？然而这并非这篇论文核心探讨的问题，所以其实也无所谓。

ChatGPT for Robotics

本身可以理解为使用 ChatGPT 去做机器人的一个发散性的思考，同时提出了诸如 PromptCraft 之类的工具。

PIVOT

这篇文章的思想还是比较有趣的，也算是充分利用的 MLLM 的 VLM 能力。本身的思路其实在于，让大模型在具身智能的任务中进行生成式不太靠谱，但是去做选择题还是可以的。于是可以先随机 sample 一些动作或者轨迹，之后将这些内容 annotate 到图片上（与 CoPa 同理解，VLM 的 V 更具有空间的表征能力），让模型选择，然后一次次的选择即可。

Code As Policies

这篇文章的思路也很简答，就是可以使用代码来控制机器人，这等于可以让 LLM 与环境进行持续且合理的交互。大模型可以通过调用 API 来获取环境信息，比如说调用视觉 API 来获取物体位置，同时也支持了使用一些比如 for 之类的操作，毕竟代码肯定比一次次的生成式更加有条理。

MOKA

MOKA 的思路其实本质上和 CoPa 以及 PIVOT 是十分类似的，都是使用 Prompt-based 的 VLM，通过将不同的选择 annotate 到图像上，并且让模型进行选择，从而进行路径的规划。MOKA 等于说是希望通过若干的点标注，让模型学会如何去完成动作。所以流程上也是首先先找到需要操作的物体，然后再采样抓握点以及路径点之类的，最后结束。甚至说虽然 MOKA 里面没有明说，但是实际上其对于抓握点进行 filter，并且通过 filter 获得抓握姿态，这个流程实际上和 CoPa 可以说是一模一样，只是说 MOKA 希望通过路径点来完成动作，而 CoPa 则希望通过向量来完成动作。

RoboPoint

RoboPoint 这篇论文可以说也是很简单粗暴，也算是大力出奇迹了，大概就是去做一个 point grounding 的一个模型。事实上我并不认为这种模型算是真正的具身智能的模型，而是纯粹的 perception 的模型。具体来说，因为这个模型只具有一些 grounding 能力，而即使是输出 high-level policy 的 ViLA，其输出的 plan 也是包含机器人相关的规划，并且应该具有像是 SayCan 一样的 awareness，类似于机器人能做什么，不能做什么。这一篇的 pipeline 里面貌似就是只是单纯的输出点的坐标，用 point grounding/bbox grounding/VQA 来训练了一个 13B 的模型，而且效果也没有很显著，或者似乎可以说是 MOKA 的一种 one step 的 end2end 版本。

GR-1

GR-1 可以说是一个很不错的经典工作了，用了十分直接的方法，效果也很不错。具体来说先在人类数据上训练，然后放到机器人数据里面进行 fine-tune。执行的 Task 有两个，一个是预测图片（多张图片，也可以说是视频），一个是预测动作，见下图。

这里面令我比较疑惑（也是因为我不是很懂）的是，既然在预训练的时候是没有状态的输入以及动作的输出的，那这两个编码器和解码器应该在那时候如何处理，是直接 blind 掉吗，那岂不是会导致一种 bias 存在。但是除此之外还是很好理解的，说白了就是 world model 的思想，通过预测视频来预测未来，从而认为模型可以 train 出来对于世界如何运作的理解，然后在这个基础上进行微调。从数据的角度来看，这种使用视频预测的策略确实很不错，因为只要存在一个文字视频对（应该不少），那么就可以大量地进行 scaling up。不过实验里面有所欠缺，以及我比较希望看到的现象，不是单纯的提点，而是假如说存在这样一个情况：人类示教视频中进行了一个动作，而这个动作是并不在机器人的数据里面，但是在实验中机器人可以执行，而且几乎是从 0 到比较高的一个成功率，那么就很能体现 scaling up 的意义了。因为加入的大量人类视频数据里面学习到的 skill 可以 transfer 到机器人的动作能力中。毕竟人类数据很多，而且录制起来也很简单，这就会成为一种未来。

总结

这一篇文章里面记录了我读过的二十五篇论文，当然这并不是全部。不过总体来说，这是一个暂时的句号，受限于篇幅等一系列内容，新的论文会被写在新的篇章中。

从这些文章来看，我们不难看出来一些 EAI 进行 manipulation 的共性。比如说，大家都倾向于使用多模态的架构，并且近期以来，使用 Diffusion（DiT）或者 GPT 这种易于 Scaling up 的模型，来进行多模态的表征学习以及对于动作的预测逐渐成为了主流。

对于 manipulation 来说，目前的主要难点其实在于数据的稀缺，相较于多模态来说，manipulation 的数据可以说是九牛一毛，而相比于和 manipulation 比较类似的 navigation 来说，我们可以从中窥得这一原因。从某种角度来说，我们可以认为这种数据量的差异来自于生产力的需求，也就是人们会开车会拍照会打字，这是人们正常生产的过程，而这些过程中收集到的数据可以直接与 scaling up 所需要的数据类型进行对齐。然而并不存在 manipulation 相关的生产力需求，流水线的机械臂是固定的程序，没有学习的价值，而只有实验室中才会尝试使用机械臂进行简单物体的抓取任务。这也是为什么我认为灵巧手类型的 gripper 会更加具有前景，因为相较于其他构型，其从 human demonstration transfer 到机器人具有更小的 Gap，而采集人类数据可以说是斥巨资制造数据工厂之外的唯一现实选择（Sim 相关工作或许会后续讨论）。

如何更好地利用 human 的数据并且 transfer 到机器人上，我认为将是一段时间内学术界的主流，而在这方面，显然使用 prompt-based 的模型在当下会更加地直接且本质。至于 learning-based 的方法，直到大量的数据集开始涌现，可能依然难以获得更大的进展，而显然数据达到自动驾驶或者多模态的规模还有相当长的一段路要走。

或许将来我会写一个简单的 survey 来讲述一下从 human 到 robot 的这个 transfer pipeline 的主要思路，比如 GR-1 的 world model 方法，或者之前讲的一系列 trajectory 作为中间表征的方法，其实都是不错的选择。

Paper Reading: Embodied AI 2

Fri, 13 Dec 2024 00:00:00 GMT

前言

HPT

HPT 是 Kaiming He 团队在具身领域的新作，可以说是很直接也很本质地解决了 cross-embodiment 任务的问题，也就是使用在多模态领域中一贯使用的 projector 的思想。这个思想属于是看一眼 Pipeline 图就能看懂的，就是对于不同的机器人，使用不同的 stem 把他们投影到同一个空间中，可以理解为一种机器人任务空间，然后在里面进行 transformer，之后再训练不同的 MLP 来投影回 actions。假如在具有无限多数据的情况下，这种方法确实可以简单有效地进行 scaling up 并且很好地迁移到不同的机器人上，不过令我好奇的是，这种方法居然在此之前没有人提出过，在此之前的工作中本栏目提到过一篇 Extreme Cross-Embodiment，然而是将不同的模态统一到了动作空间中，类似于无论是移动还是抓取，本质上都是位移以及旋转。HPT 更多还是聚焦在 manipulation 的任务中，直接且本质地给出了这个架构，并且在很多数据上进行了训练。

RoboDual

首先在讲解这篇之前，不得不说的是，这篇的作图风格我确实十分的喜欢，可以说无论是 icon 还是配色都十分的好看。那么这一篇 RoboDual 本质上就是使用两个模型的并行运行来代替了单一的模型，用了一个大的 OpenVLA 作为一个 high-level 的模型，之后用 DiT 去做 low-level 的 policy，其中 OpenVLA 的输出作为 conditioned input 给到 DiT 中。说白了其实这种框架本身和 PALM-E 在内的一系列工作都有很大相似之处，也就是 high-level 和 low-level 的设计，但是区别在于从之前的串行改到了并行，一次 high-level 到多次 low-level 的并行，并且因此可以提高帧率，也就增加了控制的细粒度。

从 pipeline 中也不难看出思想的核心其实就在于把 OpenVLA 的一个 action 扩成了若干的 action，而且 DiT 负责一种扩写，而 OpenVLA 则负责泛化。这种方法可以说是一种通用的技巧，不同于之前 conditioned input 就是 language，这里的 input 就是 action，所以降低了 DiT 的表征难度并且也让模型跑起来很快，将来的模型想要提速，这种增加一个 stage 的策略可以说是通用的。

GR-2

可以说没有什么非常大的 highlight，就是在之前的 GR-1 的基础上的一个拓展性的工作，在更多的数据上进行了预训练以及微调，具体的方法依然不变，还是在大量视频数据里面训练一个 World Model 之后在机器人的数据里面进行动作微调，让模型学会 Action，可以说就是在意料之中。

Humanoid Manipulation

这篇文章其实也很直接，说白了就是一篇对于 DP3 的 Scaling up 的论文。里面提出了一种 iDP3，也就是一个 improved 的方法，但是其实就是一些 trick 的集合，在这里也进行一下介绍。第一个就是 camera centric 的 point cloud 输入，这个应该是利好数据预处理的，而且 scaling up 也比较简单；然后就是下采样少一些，这个其实也可以拓展思考一下，其实是不是可以进行上采用呢，用一些模型对点云进行超分；然后就是把视觉编码器的 MLP 变成卷积，这个应该是经验之谈，可以让输出更加平滑，也可以得到更多的编码内容；以及预测更长时间，这个自然会更好。最后从结果来看，Scaling up 的结果很好，皆大欢喜。

Surfer

这篇论文里面主要提出了一个 World Model，可以看出来，本身就是拿了两个现成的 Encoder 把任务以及图像进行了编码，然后预测下一次的 action 以及 frame。不过从 pipeline 来看，我其实确实不是很确定这个 next frame prediction 是否有效果。隔了一个网络然后来传梯度给 Action prediction module，本身是串行的，等于说加了一个模块以增加额外约束，这种方法肯定符合直觉，但是肯定拓展性以及潜力有限，监督信号还是本身加在输出 action 的模型本身会好，这种可以说是一种增加监督的 trick，但是不一定在更大规模的 scaling 中好用，毕竟效率不高，增加了一个开销很大的模型。

ACT

这篇论文也是十分经典的论文了，使用了 CVAE 的结构来运行。按照说法，CVAE 也就是 conditional VAE，使用了 VAE，并且使用图像+joint position 作为解码器的输入。由于我没有看过 CVAE，但是大概猜测 conditional 在这个里面其实指的是 image 以及 joint position 在解码器的输入，而至于任务本身，就是重建输入到编码器里面的 action。本身论文里面有很多的细节，包括说在 VAE 编码器的时候只使用 joint position 以及在训练的时候使用 L1 损失而非 L2，在这里就不进行展开了。解码器的结构神似 DETR，包含一个编码器以及一个解码器，不过有必要指出的是，这里其实等于说一共有两个编码器，VAE 本身还有一个。ACT 可以说是比较优雅的 VAE 范式的解决方法，但是不得不说的是，VAE 甚至是传统 diffusion 的策略在当下来看都已经过时了，这种策略可能难以作为一个可以大量 scaling up 的一个策略存在，而且令我疑惑的一个点在于，之前的 VAE 以及 CVAE 因为需要生成图像的 diversity 因此一定需要采样这样一个分布，但是在 manipulation 任务里面，需要一个确定性的 policy 生成，采样一个分布并不重要。而且这样下去全部的信息不久都进入 condition 了吗，那 VAE encoder 的意义何在呢？我不是很理解。

SceneVerse

这篇工作做了一个大型的数据集，里面的全部的 scene 应该以扫描出来的为主，然后使用了不同 level 的标注，这是比较有参考价值的。也就是 Scene Level 的标注，比如说“这是一个有床和衣柜的卧室”，以及一个 object level 的标注，比如说“床”，“衣柜”，以及一个 object ref 的标注，也就是物品之间的关系，比如说“床在衣柜的左边”。其里面提出的 Scene Graph 还是很有效地可以用于表示场景中的相对关系的。

然后提出了一个模型，这个图应该是画的比较好看，但是不太容易看懂。本身包括一个 PCD Encoder，以及一个 Text Encoder，之后使用一个 Transformer 进行编码，建立了四个损失，也都算是 MLLM 的比较经典设计。一个是 ALEBF 的损失，这里面叫 $\mathcal{L}{obj}$，在输入到 Transformer 之前，使用一个 MLP 来预测 object 的 3D 坐标，然后使用 ALEBF 的损失来优化；然后是 $\mathcal{L}{obj}$，在输入到 Transformer 之前，使用一个 MLP 来预测 object 的 3D 坐标，然后使用 ALEBF 的损失来优化；然后是 $\mathcal{L}{obj}$，在输入到 Transformer 之前，使用一个 MLP 来预测 object 的 3D 坐标，然后使用 ALEBF 的损失来优化；然后是 $\mathcal{L}{obj}$，在输入到 Transformer 之前，对齐 PCD Encoder 以及 Text Encoder 的输出。然后这里面多了一个 Spatial Attention，其实就是把 Object 的空间信息编码了一下，之后才和 Text Encoder 的信息一起输入到 Transformer 中。然后就是一个 $\mathcal{L}{MLM}$，以及 Transformer 之后把 PCD 和 Text 进行对齐的 $\mathcal{L}{ref}$。最后还有一个过了 Spatial Attention 的 $\mathcal{L}{scene}$。可以说各种地方都加了各种的损失。$\mathcal{L}{obj}$ 是让 PCD Encoder 包含 Object 全部的表征，$\mathcal{L}{scene}$ 确保 Spatial Attention 的输出和 Scene Level 的标注一致，也就是 Spatial 之后真的编码出了这个场景，$\mathcal{L}{ref}$ 和 $\mathcal{L}_{MLM}$ 则是保证 Fusion 之后的信息的准确性。中规中矩，十分合理。

Paper Reading: MLLM

Mon, 09 Sep 2024 00:00:00 GMT

export function FunctionTable({ id, tldr, rank, children }) { return ( Arxiv ID <a href={https://arxiv.org/abs/${id}} target='blank' rel='noopener noreferrer'> {id} {tldr} {children} 推荐指数： { // print stars (count rank) Array.from({ length: rank }, () => ( )) } ) }

前言

本文主要是关于一些 MLLM 相关的论文的阅读工作，一些浅显的 insight 分享，以及，阅读的可能大多数是领域中的主脉络，对于刚刚入门的小白来说，或许这些论文也是值得推荐的。

Noting 的是，全部的内容都是直接基于论文阅读的，参考资料中提及的内容指，这些内容或许能够帮助读者进一步理解论文里说的内容。大的基石还是论文。

CLIP

CLIP 在某种程度上也可以说是一个开山之作，虽然说对多模态的探索早在它之前就已经开始了，然而不只是数据量很大，本身对于内容处理的范式也使得 CLIP 极具拓展性，可以在很多任务中泛化。

简单理解一下 CLIP，也就是使用一个图像编码器和一个文本编码器，对于一组图像文本对进行编码，然后获得输出。接下来就是对比学习类型的工作了，需要清楚的是，相匹配的图像文本对一定是在编码之后相似度很高的，那么直接对大量输出之间的余弦相似度进行优化，是一个显然的答案。

这里面激动人心的事情，一是在进行混合，或者说再进行多模态的相似度求解的时候，可以直接使用余弦相似度这种这种方法，这证明这些编码器在经过大量数据的训练之后，确实可以将不同模态的输入投射到一个通用的 high-level 空间中。事实上由于大多数的论文都是从故事说起，因此可能会忽略，尽管在人类的概念上图像和文本可以统一于一个高层的思维中的概念，然而这种表示，在使用数学或者计算机形式的信息时是否成立，这依然是一个问号。不过从目前的实验结果来看，答案是肯定的，而后续的一系列工作也证明了，不只是图像与文本，不同的模态之间确实可以具有一种数学意义上的高维空间中的统一。

当然同时，CLIP 的 prompt template 进行 zero shot 分类的技巧也同样令人印象深刻，这本质上是对于 bert 范式在多模态领域对一种拓展。后续的工作中也涌现了一系列的对于 prompt 的应用，然而这是后话了。

参考资料：

CLIP - https://www.bilibili.com/video/BV1SL4y1s7LQ/

ViLT

ViLT 也算是比较经典的多模态领域的工作了，这里面需要说的东西其实不多。首先需要先理清一些常规的内容，也就是 ViT 和 Transformer 在形式上究竟有什么区别。假如说我们不去关注这两个模型的输出，一个显而易见的事情是，他们的不同点仅仅在于模型的输入部分，当然对于输入的处理也有所不同。具体来说，在文本的部分使用了 tokenizer，还在图像的部分分 patch 变成 token 之后进行了一次简单的编码。借用一下后期的 insight，假如不去在意这种简单的编码的性能，已经可以理解为，视觉信息本身就是一种语言。

这篇论文首先总结了之前的工作，然后给出了一个双塔的模型的对比。具体来说，双塔的多模态模型有三个组件组成，分别是文本编码器、图像编码器和多模态编码器，这其中，这三个编码器的大小也就成了一个问题。首先需要考虑的是，当我们有固定的算力的情况下，我们应该如何分配算力给三个模型。一种最为常见的做法，是把多一些的算力分配给图像，这是由于图像本身就具有更难的编码难度，然后将两个编码器在多模态上进行简单的融合；之后也就是 CLIP，属于是用了一个文本和图像都很大，之后在多模态进行一个简单的编码。但是一个直觉显然是，作为多模态的任务，我们需要将多模态的进行更好地处理，给足算力，因为真正的多模态的理解，不是像 CLIP 一样进行简单的高维表征的融合，而是直接从低维信息中直接获得高维的多模态理解。所以说显而易见的，可以直接将多模态的部分变成一个 Transformer，然后将不同模态的数据进行简单的 tokenize 之后就 concat 作为输入。

在这里提供了几个 insight，其中之一是，尽管我们认为 ViLT 的这种做法比较符合直觉，但是很明显它缺乏一种泛化能力。在已经训练好的模型的基础上，假如新加入一种新模态，例如语音，ViLT 就需要重新进行一次训练，而 CLIP 将新的编码器 align 到之前的空间中即可，原来的编码器可以 frozen。虽然说这种方法并不优雅（因为三个模态同时进行训练，所获得的图像文本编码器的权重，肯定和他们两个进行训练的时候不一样，这也是因为对于三模态的输入来说，最后获得的那个高维空间，本身也会具有新模态的含义，但是尽管如此强行的对齐依然是可以的），但也能反映出来泛化能力上的不同。

另一方面的几个小技巧，包括说对于图像使用数据增强（因为没有繁重的图像编码器，所以不同于之前的方法将编码后的特征储存起来使用，ViLT 作为端到端的模型，可以直接使用图像，那么图像增强就有必要了），同时避免使用 cut 以及 color 类型的增强。

参考资料：

ViLT - https://www.bilibili.com/video/BV14r4y1j74y/

ALBEF

介绍一下 ALBEF，这份工作可以说也是很经典的内容了，基本来说，符合了前人工作的几个共识。首先就是，一般来说，图像编码器需要大于文本编码器，同时的话，多模态的编码器也要尽可能的大，于是使用了 12 层 Transformer 作为图像编码器，6 层文本以及 6 层多模态。同时也是用了 ITC/ITM/MLM，这几种经典的任务。

其中一个创新点在于 hard negative，也就是从 ITC 中选择最相似的难样本作为 ITM 的 negative；同时还有一个，也可以理解为是自学习或者自蒸馏，反正就是加入了一个 MT 来获得稳定表征。这里面需要注意的是，事实上在训练的过程中，数据的噪声巨大无比，而且不一定准确，因此加入一个 MT，已经不是在单模态里面的那种简单平均了，而是甚至可以生成质量远高于当前 GT 的标签，这一点在后续的 BLIP 里面也有体现，也可以说是对于数据的处理。

但是进行一个简单的拓展，之所以使用动量的方法，本质上还是因为它是 one- stage 的，假如说使用 noisy student 那种，每训练完一个模型再作为 Teacher，肯定也是没有问题的，在这里，BLIP 似乎更加出色，后续去说。

参考资料：

多模态串讲 - https://www.bilibili.com/video/BV1Vd4y1v77v/

VLMo

VLMo 也可以说是一个比较经典的工作，其中提出的主要就是 MoME，但是这里面，MoE 的experts 是模型自己去选择的，而在这个里面则是手动的进行切换。

大概的结构就是一个 L 层的 Transformer，但是其中的 FFN 都被换成了多个 FFN 的形式，然后在训练的过程中决定使用哪一个。

这里面的一个 insight 在于无需使用多个 attention block，而是说确实一个 attention 就可以处理完全部内容了，而且不同的 FFN 也可以接收同样的输出，并根据自己的模态进行理解。

那么对于这三个经典的 loss，ITC 可以分别激活图像和文本，最后算损失；ITM 先分别激活图像和文本若干层，之后再全交给多模态；MLM 同 ITM，从图上看起来还是十分优雅的。

最后，这个预训练的策略也比较有意思，属于是采用了分阶段训练，首先用图像数据训练图像 FFN，之后是文本，在经过了一定量的预训练之后，才是多模态。在这个里面需要注意的是，图像和文本的顺序不能换，不知道具体是因为什么。

参考资料：

多模态串讲 - https://www.bilibili.com/video/BV1Vd4y1v77v/

BLIP

BLIP 可以说是我比较喜欢的一篇工作了，当然，基础的模型结构并没有很大的创新，本身还是 VLMo 的框架，贡献了 attention block 的参数，但是把 MLM 换成了 LM，所以这里的参数不能共享，换成了一个 casual attention。

这里面我非常喜欢的一个设计，就是它的 caption-filter 框架。这种设计其实在 ALBEF 里面已经体现出来了一些，也就是我前面说的使用 MT 的方法。但是事实上，这种方法并不完全的优雅，尽管是 one-stage，但是或许效果并不如 two-stage，更何况本身还是完全的套用之前的范式，属于是意识到了 noisy 和 pseudo label 的潜力，但是并没有完全发挥。

那么，BLIP 的这个框架就不一样了。首先是一个 two-stage，这一点无伤大雅，正如我所说的，one 和 two 的区别并不是很大，甚至说 EMA 唯一的意义在于维护一个 bank，其他情况下完全可以想象，性能应该不如 two-stage。

BLIP 的重点在于，ALBEF 只关注到了 MLM 生成的高质量，然后就直接融合进去了，这种粗糙的融合固然是可行的，但是效果不一定特别好，只能说是缓解了 noisy 的情况，因为 noisy 依然存在，只是因为 MT 的权重而被稀释了。那么一个更彻底的方案就是进行 filter，BLIP 巧妙的注意到了这种 filter 的需求和 ITM 的任务惊人的相似，于是使用 LM 进行 caption，把 caption 和 GT 一起交给 ITM 去二选一，这样最后的结果就会很好了。

参考资料：

多模态串讲 - https://www.bilibili.com/video/BV1fA411Z772/

CoCa

CoCa 可以说和 ALBEF 十分的相似，基本上就是和 ALBEF 一模一样，但是 CoCa 的关注点在于，之前的工作，虽然看上去从 pipeline 里面都是同时进行的输入，但是实际上在一个 iteration 里面都是经过了很多次的 forward，而 CoCa 则是希望，在同一个 iteration 里面，所有的 forward 都只进行一次，也就是所谓的 one-pass。

方法也十分简单，既然 one-pass 了，那么 scale 上去很多数据就会方便很多，毕竟计算快了很多，于是直接对文本输入直接采取 casual-attention，也不需要管数据的损失，算就完事了，于是任务也变成了一个 Co 和一个 Ca，也就是 contrast 和 caption。

所以说白了其实带来的 insight 不算多，一方面 ITC 确实有效，一方面 LM 也是一个难任务，但是在诸多 trick 之上，CoCa 的 large model 以及 scale up 的 data 显然为其性能带来的更大的影响。

参考资料：

多模态串讲 - https://www.bilibili.com/video/BV1fA411Z772/

BEiT V3

可以说 BEiT V3 本质上和之前的 VLMo 是十分类似的，但是区别在于，其只采用了一种任务，也就是 LM 任务，这自然也增加了运算的效率。之后就是通过大量的数据，以及不同 FFN 的激活，来在不同的的任务里面训练，可以说是十分的简洁。

这篇说白了也就是一个 insight，也就是阐述了 MoME 在 LM 任务下 scale up 之后确实很强，同时当然，这些 MoME 依然可以组合，再去 transfer 到不同的下游任务里。

参考资料：

多模态串讲 - https://www.bilibili.com/video/BV1fA411Z772/

BLIP2

虽然说名字叫做 BLIP2，但是实际上感觉模型的结构上区别还是很大的，只是说任务比较类似而已。

BLIP2 的主要贡献，以及 motivation 在于，之前的模型，都是全部由自己训练的，无论是效率还是算力之类的，开销都很大，而目前领域内已经有了很多的性能很好的模型，于是直接 frozen 之后拿过来用就好。于是提出了一个 Q-former，可以对于 frozen 的图像 encoder 以及 LLM 起到桥梁的作用。

训练还是一个 two-stage，这里面 stage-1 和 stage-2 的图画的其实很迷惑，因为 Q-former 里面本质上是有两个 Transformer 的，那么后面在 stage-2 的输出，是两个 Transformer 的 concat 还是什么，就很神秘。这里一篇 csdn 的博客的图很不错，事实上拿的是 queries 输入的那个 transformer 的输出。

Stage-1 和正常的 ALBEF 区别不大，之后 stage-2 把输出过 MLP 送给 LLM，再进行训练。本质上假如没有 Stage-2，那么就是一个 ALBEF，而假如没有 stage-1，则是一种新的范式。那么能否抛开 stage-1 呢？毕竟 stage-2 也是一个完整的训练流程，而且也是多模态的，但是实验表明不行。一种理解是，在 Q-former 里面之所以要引入一个文本编码器，目的就是通过 stage-1 的各种任务，让图像端的 Q-former 和文本对齐，换句话说，这个 token 输入给后面的 LLM 的时候，模型说的是人话，而不是图像话，毕竟后面跟的 MLP 只是为了统一维度，本身与文本类似的语言表征，还是在 Q-former 里面进行建模的。比起来能够将两个模型拼起来，我觉得还是这个 align 的启发更大一些。

参考资料：

BLIP2 - https://blog.csdn.net/LoseInVain/article/details/136013909

LLava

LLava 比较简单，主要是提出了一种只使用 GPT 的文字功能，就可以生成高质量 caption 的方法，简单来说，对于具有 captions 和 bounding boxes 的内容来说，其实际上具有更多的信息量可以挖掘，所以可以生成一些高质量的 hard task。

模型的结构就是一个 image encoder 之后跟一个 MLP 来映射，然后一起输入到 LLM 里面。依然训练是 two-stage 的，首先只训练 MLP 来对齐，之后训练 MLP 和 LLM 来适应具体任务。

本身的 insight 一方面对齐不需要很强的表征能力，MLP 已经足矣；另一方面高质量的数据很重要。同时 LLava 用的各种 prompt 自然也很有参考价值。

参考资料：

LLava - https://blog.csdn.net/qq_35812205/article/details/136586853

周记 Week27

Mon, 13 Jan 2025 00:00:00 GMT

这一周又是平平无奇的一周考试周。

考试

总的来说也没什么大事发生，因为有考试的原因，所以说科研的进度被 block 了很多，而且我这边不但要准备自己的考试，好好科研，还要照顾女朋友。只能说我们的考试压力还是不大的，但是乐小姐基本上两天一考试，而且都是背诵很多东西的考试。

为了复习方便，我们甚至在外面租了房，所以就可以任意作息通宵复习，这很大程度上节约了时间，并且达到了一种三天时间可以当作四天用的效果（通过压缩睡眠时间）。

我给自己列了 2024 年的年终总结，实际上我的科研起步就是在 24 年，如此回头望去，还是硕果累累的。但是依然不得不感慨，我的效率依然不够，虽然说相较于同龄人已经很厉害了，但是这是因为我单位时间内能做的事情很多，然而最后的结果完全没有我理论上的产出那么多，因为大量的时间内浪费掉了。

DSP 考试匆匆结束，接下来又要紧锣密鼓地复习 NLP 的考试，然而科研的进度也慢了很多，所以说我还需要汇报自己的复习并不是很麻烦，然后在科研里面加大投入，其中被压榨的自然也就是我自己的休息时间了。

可以说现在我基本上处于一个半 burn out 的状态了，每天都在赶 DDL，不过相信等到考试结束，我就可以好好休息一下了。

Docker 调用 Nvidia 报错

Sun, 12 Jan 2025 00:00:00 GMT

前言

最近在配置 Docker 环境，在安装 Nvidia Docker 后，运行时报错 Failed to initialize NVML: Unknown Error。

情况复现

这个情况并不是很容易复现，本身我是在实验室的服务器上运行的 Docker，从而安装 docker 版本的 isaac sim，参照 Isaac Sim 的官方文档，具体的 Docker 安装为：

安装 NVIDIA Driver

sudo apt-get update
sudo apt install build-essential -y
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/535.129.03/NVIDIA-Linux-x86_64-535.129.03.run
chmod +x NVIDIA-Linux-x86_64-535.129.03.run
sudo ./NVIDIA-Linux-x86_64-535.129.03.run

这一步我压根没操作，因为本身就已经配置好了。可以用 nvidia-smi 查看是否安装成功，有输出就没问题。

安装 Docker

# Docker installation using the convenience script
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh

# Post-install steps for Docker
sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

# Verify Docker
docker run hello-world

这里面实际上直接 sudo usermod -aG docker $USER 就好了，然后 ctrl+d 退出，再 SSH 进来刷新一下就好了。

安装 Nvidia Container Toolkit

# Configure the repository
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list \
  && \
    sudo apt-get update

# Install the NVIDIA Container Toolkit packages
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# Configure the container runtime
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

# Verify NVIDIA Container Toolkit
docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi

安装 Isaac Sim

docker pull nvcr.io/nvidia/isaac-sim:4.2.0
docker run --name isaac-sim --entrypoint bash -it --runtime=nvidia --gpus all -e "ACCEPT_EULA=Y" --rm --network=host \
    -e "PRIVACY_CONSENT=Y" \
    -v ~/docker/isaac-sim/cache/kit:/isaac-sim/kit/cache:rw \
    -v ~/docker/isaac-sim/cache/ov:/root/.cache/ov:rw \
    -v ~/docker/isaac-sim/cache/pip:/root/.cache/pip:rw \
    -v ~/docker/isaac-sim/cache/glcache:/root/.cache/nvidia/GLCache:rw \
    -v ~/docker/isaac-sim/cache/computecache:/root/.nv/ComputeCache:rw \
    -v ~/docker/isaac-sim/logs:/root/.nvidia-omniverse/logs:rw \
    -v ~/docker/isaac-sim/data:/root/.local/share/ov/data:rw \
    -v ~/docker/isaac-sim/documents:/root/Documents:rw \
    nvcr.io/nvidia/isaac-sim:4.2.0

此时你会交互式地进入 Docker 中，然后运行 nvidia-smi 查看是否成功。

一般来说，就会正常输出，但是本人在某个服务器上就遇到了报错 Failed to initialize NVML: Unknown Error。

想要了解是否与本人遇到的情况相同，可以尝试使用：

docker run --rm -it --device=/dev/nvidiactl --device=/dev/nvidia0 --gpus all nvcr.io/nvidia/isaac-sim:4.2.0

然后尝试一下输出，会发现输出一张卡。

然而这并非通用的方法，因为你把 nvidia0 换成 nvidia1 或者其他的，就找不到卡了。

解决方法

解决方法也很简单，直接修改 Docker 的一个配置文件：

sudo vim /etc/nvidia-container-runtime/config.toml

...
no-cgroups = true # [!code --]
no-cgroups = false # [!code ++]

然后重启 docker 服务：

sudo systemctl restart docker

此时再运行 nvidia-smi，就会发现可以正常输出了。

2024 年终总结

Sun, 05 Jan 2025 00:00:00 GMT

关于过去一年经历的事情的回顾，我其实已经写过了很多，重复的叙事并没有什么意义，只是在制造重复的回忆，而没有带来任何的价值。假如说回忆录是帮助我回忆起来过去的故事的文章，读者们也可以从中了解我的故事，那么年终总结就是一个彻头彻尾写给当下的我自己的短文，让我告诉自己，自己这过去的一年内，收获了什么，失去了什么，改变了什么，以及，有没有在人生的尺上留下刻痕。

要是用三个关键词来概括过去的一年，可以是，“找到方向”、“内耗”、“成长”。

找到方向

在 2024 年之前，我是一个普普通通成绩还算不错的学生，有着一点点的信息差的高瞻远瞩，于是进组参加了科研。从时间线来说，那时候就已经投稿了 CVPR，尽管在 2024 年年初迎来了失败的噩耗，但是走向科研这条路确实不是 2024 年开始的。但是所谓方向，大抵说的我究竟有没有意识到自己将来想要做什么。

我一直以来是确定我要保研的。我很清楚自己不是一个应试型的选手，尽管相较于大多数的同学，我耗时几天的成果已经可以比他们学习一学期的成绩要好一些，但是我并无法从这些重复性的学习陈旧知识并且刷题的过程中获得反馈，因为高考的空前失利，我也十分惧怕当我诉诸于考研时，再一次的失误会将我推向怎样的深渊。事到如今，我依然认为对于大多数的同学来说，考研是一条最合理的路：留下了绚烂的大学生活，简单，一次定胜负。

反观保研，这显然并不是一个很好的想法。选择了保研，意味着需要维护三个学年的成绩，每一门考试都必须仔细复习，并且保证足够高的成绩，而这只是冰山一角。同时，你还需要关注竞赛以及各种其他的德育分加分项，因为这些内容在保研的排名中占比高达 10%，这显然是不可忽略的。要不然你具有一些特长，加入了诸如 ACM 或者 RM/RC 这种社团，一次性凑够十分竞赛加分，要不然你就需要辗转于各种竞赛（e.g., CUPT 等的校内选拔）来一分一分凑够这些分数。当你做完了这些之后，你的结果只是抵消了一次考研的考试，你依然在西交，依然和那些考研的同学没有什么区别，度过了相对自由的大四之后前往创新港。那些自己在大学前三年熬过的夜，流过的泪，以及诸如此类付出的一切，只是换来了一个正常到近乎平庸的结果。要是你还想要更进一步，那么试试保研外校吧。想要通过强 com 的夏令营，你需要在关键的大三下期末考试附近，连续参加不同的学校组织的考试，同时你或许还需要提前在 LeetCode 上面刷一些题目，以确保自己可以通过机试，而你的对手可能之前参加过 XCPC。假如是弱 com，那么你想要直博吗，你是否已经决定了你后面半生的道路要踏上科研？或者你已经决定好了，读一个硕士，不过想要获得老师欣赏，也需要提前参加科研，并且有科研产出，这则是一条更加漫长的路。

不过正如我之前非常喜欢的诗歌：

也许多少年后在某个地方，

我将轻声叹息把往事回顾，

一片树林里分出两条路，

而我选了人迹更少的一条，

因此走出了这迥异的旅途。

我很早就在保研与考研的岔路口上选择了前者。只是我现在在这条路上，又一次选择了那条更加布满荆棘的路，我喜欢科研，我想要在这条路上走的更远。

我在今年的三月份投稿了 ECCV，然后六月份收到了 443 的得分，之后进行了 rebuttal，并且在七月份获得了 554 的修改后得分，收获了第一篇中稿。可以说，这是一次很不错的尝试，我参加了科研，并且在一个名不见经传的小领域里里面做出了 SOTA 的成果，得到了审稿人的认可。一个人从零开始，自己学习基础知识，然后申请进组寻找 idea，进行书写代码以及实验，并且调试，最后绘图以及完成论文。这是一次十分不容易的体验，对于一个初学者来说，这并不是一件十分简单的事情，而且中间也出现了诸如 CVPR 的失利的挫折，这些都是一种磨砺。

之后我申请了上海人工智能实验室的 OpenRobotLab，在暑假前往了上海进行了一段时间的线下实习，并且在之后大三上学期开始了线上实习。正如我之前说的，我是想要进行科研的，也就是我的目标从一开始可能就是进行直博，而我从大一开始，其实就已经向往前往上海人工智能实验室（其一是听闻其良好的氛围以及计算资源，其二则是喜欢上海这个城市，~~本人实在想要女装逛漫展~~），因此也可以说是在逐渐收敛到自己预期的那条路上。在 SHAILAB 这边，我进行了我的第一个课题，并且会在 2025 年年初彻底完结这个工作，在此之间，也是以 CVPR 作为 DDL 将这篇工作投了出去。

内耗

内耗可以说是我这一年的另一个很大的主题。内耗这个词现在有一点点像是什么国潮单品一样，可以说任何一个人，都可以以内耗作为任何失利的借口，但是还是有必要在这里定义一下对于我来说的内耗，即因为个人的生理或者心理问题，导致办事效率的低下。

和绝大多数同学相比，我的办事效率可以说已经很高了。通过熟练使用 GPT 以及各种软件（e.g., LaTeX for 写论文或者 Python for 简单的数据分析），我可以在短时间内完成很多的事情。同时，我可以可控地进入专注的状态，从而长达数小时乃至十数小时专注在一件事情中，然而显然这还不够。事实上我的生活中依然存在大量的时间，因为类似于 ADHD 的原因，在发呆或者转而做其他事情中被消耗，其中更加不能容忍的，比如，我甚至可能花费了一些时间去看网络小说，然而我甚至不能从这些行为中获得快乐，这对于我来说甚至连情绪价值都没有产生，只是在浪费时间。

在这一年中这种无意义的内耗占据了可以说是大多数的时间，除非存在一个确切的 DDL 进行催促，不然我也难以专心来做这件事情。这对于一名将会长期从事科研的科研工作者来说显然是不可接受的。

除此之外，我在这一年中的身体状况并不算好，因为经常性的昼夜颠倒，导致在白天的精力并不算充沛。尽管在晚上没有别人打扰，可以更加专注地做我需要做的事情，这是一个很不错的体验，但是无论是科研还是其他的合作，这都是需要多人一起完成的事情，但是这种昼夜颠倒会导致我难以和合作者建立及时的沟通，从而进一步在多人的任务线上因为这种情况而被 Block 住。心理状态也是一个需要关注的话题，现在因为基本上已经获得了 SHAILAB 的 offer（当然，还是需要继续努力的，毕竟我的目标并非获得一个 offer，而是可以在 SHAILAB 中做出一定的贡献，并且在科研的领域中做出具有影响力的工作），基本上不会因为同龄人的成绩或者科研进展而感到焦虑，但是依然会因为过度的劳累，而产生心理上的疲劳。同时，今年我也少量出现了存在主义危机，即，我从小便畏惧于死亡的概念，并且对于自己为何而存在，死后会去哪里等问题感到恐惧，这些因素随着我的劳累而再次被唤起。

成长

尽管有所前进，有所桎梏，但是今年的主旋律依然是成长，相较于之前的成长。无论是前往了新的实验室，中稿了第一篇顶会，熟悉更大的课题组的工作节奏，还是从技术上接触了具身智能领域的若干平台，学会使用集群，以及其他若干的细枝末节，我相较于去年还是进步了许多。~~甚至说尝试了更多风格的女装，从中获得治愈，这何尝不算一种成长呢。~~

同时，我和乐小姐两个人的二人世界也正在成长，相较于一年以前的青涩，我们现在变得更加熟悉彼此，也更加亲密无间。

与此同时，当然，在科研之余，我在其他地方也获得了不少的成长。我在绿群中制作了 CS-BAOYAN-DDL，获得了大量的认可，并且在后续成为了绿群这一组织的群主。我在课余时间整理了不少的复习资料，这些内容都可能被将来的同学使用到，对他们起到帮助。我制作了西安交大生存指南，在新生入学的时候进行了宣传，这是一个很不错的制作，讲述了我在当时的视角下认为的新生以及老生的成长路线，这些内容还会继续在将来被拓展以及更新。我搭建了新的博客，你现在正在通过这一博客看着我的文章。

新年展望

既然是新年，虽然说这是我的第一次年终总结，但是明年，也就是 2025 年，显然我依然会书写一篇 2025 年的年终总结，所以不妨立下一些计划，并且看看那时候可以兑现多少。

产出三篇以上的科研工作
前往 SHAILAB 直博
在 Github 累计 commit 三百天（主要指连续更新 Blog）
写三百篇论文感想
每天写代码六小时、读论文一小时、跑步一千米
写万字的小说设定
更新西安交大生存指南
坚持写周记

我们明年见。

大二回忆录

Sun, 05 Jan 2025 00:00:00 GMT

随着今年的 CVPR 的投稿来到了尾声，随着补充材料的提交，可以说给这一段经历画下来一个短暂的逗号，之后，我还会继续在上海进行科研，但是至少在现在来看，还是可以终于有一点点时间，来记录一下很久就想做的大二回忆录。

前路茫茫

在度过了繁忙的大一之后，相较于刚刚入学时候的我，我的个人水平可以说已经有了长足的进步。我现在不只是掌握了很多编程语言，同时也参与了 RM 这种中型体量的代码工程，而同时我也学习了机器学习和深度学习的常识知识，包括那几本脍炙人口的书籍，以及大约五十篇的论文。

在 WJH 学长的引领下，我认识了绿群，并且开始了新的一段水群之旅，开始有意识的规划自己将来的保研。一开始我的目的就是很明确的，在经历了一些论文阅读之后，加上和一些其他人的聊天，我可以确定一个初步的想法，那就是在短时间内我是喜欢科研的，并且打算将学术作为自己的第一发展方向，换句话说，对于我来说最好的途径，就是加入课题组并且参加科研，然后通过论文发表来获得清北华五级别学校的 PhD offer。

在和学长进行的简单的咨询之后，我就快速地选择了周三平老师作为我的第一位导师。

讲实话，我在当时有一些考量，从兴趣上来说，我之前是抽空看过 Games 101，对于计算机图形学非常感兴趣，然而这并非潮流，就像我对前端开发很感兴趣一样，我可以有很多感兴趣的事情，但是我需要从里面选择出来那一个，我又有兴趣，又可以给我带来更好的发展的方向。在西交人机所（也就是人工智能学院），做计算机图形学的只有一位老师，而我对于计算机学院也不太了解，所以也就放弃了选择。

通过和学长的交流，我了解到了人机所比较有潜力和水平的几位老师，我向其中的两位老师发了邮件，周三平老师立刻就回复我了，另一位老师则了无音讯（后面有一位同学委托班主任搭桥，进入了这名老师的课题组，结果却是做了标注数据集的杂活，也可以说，冥冥中都是命运的安排吧）。我按照学长交给我的办法，在谷歌学术上看了老师的发表，当时我其实还并不清楚，事实上挂了老师名字的论文，有很多都其实并不属于这位老师直属的课题组，所以看到了其中我比较感兴趣的图像修复（我实际上更加感兴趣的是图像生成，当时并不了解这方面详细的技术背景，但是类似于 DDPM 以及后续工作的一些论文倒是看过，对于那些算法十分感兴趣，但没有发现老师有相关的背景，就只能退而求其次）。

可以说当时我还是比较害怕，不知道自己是不是有资格进行科研，所以还是等到了奖学金的排名公布之后，我才好意思发出邮件，而这个时候已经十月初了。我和老师进行了一次快速的面试，或者说就是在一起聊了一下，我和老师说了我的兴趣，但老师告诉我这方面他已经不再做了，不过可以和另外两个已经大三的学长一起做医学影像相关的内容。我对医学影像并不是很感兴趣，不过感觉也是可以做一下的，就答应了下来。老师给了我一篇论文，让我看一看，并且之后和另外两名学长一起讨论一下。

RM 组长

科研的故事暂时先讲到这里，接下来还是要花开两朵各表一支，讲讲其他的事情。就像上集说到的一样，我在 RM 里面已经成功担任了视觉组组长，也就承担了招新的工作。这一部分详细的故事在 RM 回忆录里面有说，在这里也就挑一些和比赛不太相关的事情来讲。

当时相较于之前的培训，我更加青睐于制作一系列的更合理的内容，将培训的知识和考核的内容结合在一起，所以也录制了一系列的视频，同时花了不少时间来去做准备。

与此同时，我依然展现了积极水群的品质，在新生来了的一段时间内，在新生群里面和大家处好关系，也因此认识了不少同学。在这里面可以说我加了不少大一同学的好友，也和一些目前在他们年级中影响力比较大的同学聊过一些，并且通过对于 RM 的宣传，将一些同学招募到了视觉组里面。

整个这一次的培训，总体上来说都显得我十分仁慈，没有做很高强度的抗压，而且最后在筛选的时候也没有非常严格，导致最后还有不少同学剩了下来。因为后面没有任务去给他们布置，使得这些人的积极性下滑，但这就又是后话了。

这一次主要是招募了两名让我印象比较深刻的同学，是我这个年级的同学，LXW，另外一个则是比我小一年的学弟，QZZ。QZZ 可以说是我在西交见过最具天赋的学弟了，估计在科研上的速度说不定可以超过我，后来他在大一下的时候就进入了课题组，并且参加了很多课题的科研，但是遗憾的是，他并没有主动去争取一些主导课题的地位，导致现在属于自己的工作还没有开始进行。按照常理来说，在西交的课题组中进行科研，产出的是正常且不是特别有影响力的工作，往往比较难以一次就中稿，因此他的才华是不是会被埋没，也就未可知了，说不定也不能超过我的论文发表速度。至于 LXW，那段时间大概我会把他视作我的朋友之一，这个人具有一些工程能力，但是课内成绩很低，也并没有科研相关的志向，可以理解为正常的技术爱好者类型的学生，因此我也推荐他来这个比赛去获得加分，这边的需求和他的能力也正好匹配。然而事实上是，我这个人通常与人相处存在一定的距离感，而 LXW 有的时候不打招呼就用我的东西或者吃我的零食，这实在是让我心生膈应，尽管大多数时候他还是作为一个好的朋友存在的。

讲实话，我在社团里面一直扮演的是一个亲民的角色，并非是一个铁血的领导者，导致了后面视觉组一些同学并不怎么做事情，当然最后而言，视觉组还是完成了大多数的目标，虽然因为一些客观问题没有发挥好，但是我认为还是达到了我的预期。

科研之二

继续回到科研这一边，毕竟在整个大二生活中，除了正常的学习，就只剩下了参加 RM 以及科研。作为一种安全感的提供，以及对于社交的懒惰，我将社交圈缩小，并且大多数时候只和乐小姐一起，而其他的社交主要集中在了绿群的网上交流。

这些事情其实在第一次的周记里面都已经说过一些了，但是我还是愿意再讲一次。在老师给了我这篇论文之后，虽然说我之前自己已经有了很多相关的实践，但是正式的进行科研工作还是第一次，第二天我就在自己的电脑上下载了数据集并且进行了训练，将论文的成果进行了复现，并且大概将论文的思路和代码都看懂了。

在和老师以及两位师兄讨论的时候，我当时大概提出了自己的见解，对于论文 MCF：Mutual Correction Framework for Semi-Supervised Medical Image Segmentation，本身是在通过两个不同的网络之间的差异来进行半监督学习，从我当时的视角来看，半监督学习在这个语境下面，关键点就是如何维持两个模型之间的多样性。准确地说多个模型在这种协同训练的范式下，因为在此之间通过伪标签建立的损失，所以很快就会具有相同的表征，从而让伪标签不会太有意义。

当时其实我很快就想出来了第一个方法，其实也很显然，我只需要让模型迭代的速度慢下来，保留某一个模型的备份，从而模型依然具有之前的一些多样性的表征，一个明显的方法就是通过 Mean Teacher 来做这个事情。第一次的程序简单粗暴，我在原来协同训练的两个模型的基础上，额外增加了两个教师模型，他们不会在推理的时候使用，只提供伪标签，不参与反向传播。这样一个简单的框架，因为变得复杂，显而易见的达到了 SOTA，但是却缺乏创新性，并不理想。

在之后的一次组会中，我忽然灵光一现，想到了另一个切入点，也就是从模型的不平衡性角度来入手。在 MCF 里面有一个大概率不是原创性的设计，但是因为没有做相关的调查，他们也没有引用，也就不进行追根溯源了，大概的意思就是在协同训练的时候，比较两个模型在有监督数据中的性能，并且将性能高的模型作为教师提供伪标签，从而实现一种动态切换的教师学生关系。这种设计的好处是显然的，可以简单直接的 filter 掉一些不好的伪标签，虽然说在有监督数据上的性能并不是客观准确的，但是至少有一些参考价值。然而这也引发一种担忧，也就是假如我用两个不同结构的模型（MCF 的设计），这两个模型的性能天然就不一样，按理来说好一些的模型具有更大的获得性能的潜力，但是却因为他一直提供伪标签，而导致只具有更少的使用无监督数据的机会，最后让两个模型都趋于平庸。

那么有没有一种东西可以改变模型的性能，而且不是和模型或者损失函数绑定在一起，并且可以灵活变化的呢？假如可以找到这样一个属性，那就可以让模型之间进行平衡的切换，并且建立稳定的多样性，这种多样性不是一个模型始终领先另一个模型，或者在多数情况下领先，是两个模型平等的进行切换，从而都可以充分利用到无监督数据。答案显而易见，也就是迭代次数。

我在组会中提出了这个想法之后，老师也认为有一些希望，所以会之后我很快就搭建出来了第一版的代码框架，两个模型会进行交替训练，在后续的命名中，最后选择了 progressive 来形容这个现象，然后在数据集上进行了训练和测试，超过了 SOTA 两个点。

那时候大概从我开始科研过了两个多星期，而且距离 CVPR 截止大概还有四个星期，我自然是喜欢做很大的梦的，所以找老师说了一下这个现象，并且和老师聊了聊，决定投一下试一试。当天我就写了一些论文，主要还是仿照 MCF 的写作思路，现在来看这种思路十分奇怪，是从对另一篇论文的攻击开始的，也就是指出他的错误，并且说自己可以避免这一错误。我的论文仿照了这种写法，也指出了 MCF 的问题，并且提出了自己的解决方法以及贡献点，给老师看了之后被光速驳回了。毕竟 MCF 驳斥的是一篇知名的论文，所以说还站得住脚，但是假如我去驳斥 MCF，也就成为了一篇名不见经传的工作的后续改进了，自然也就差了点意思。接下来老师跟我讲了新的思路，怎么去组织这个故事线，然后我就开始一边跑实验一边画图一边写论文了。

周老师在我的整个科研经历里面，主要还是起到了口头指导以及论文写作上一些帮助的作用，然而并没有非常手把手的对我进行协助，然而我并不认为这有问题。事实上一方面老师比较忙，另一方面与老师的交流，我已经能学到许多东西，就在后面也会体现出来。

整体的论文思路改成了周老师认为比较合理的走向，也就是自顶向下的去讲述这个故事，从这个领域开始说，然后说为什么很重要，之前一些著名的工作以及最近的工作做了很多探索，但是还有缺陷，而我们的工作解决了这个缺陷。这种论文写作的思路的核心在于，不去讲述思考的过程，而是直接指出解决了问题，让方法有一种浑然天成的感觉。具体来说，我们不会说对于这个现象，观察到了某些结果，认为这是某种原因，并且构建了某个模块，甚至和其他模块进行了比较，选择了最合理的；而是直接说对于这个问题，我们设计了这个模块，从而在这个现象中避免这些结果，而且经过实验还发现我们的这个模块比别的模块要好。这种故事讲述顺序的颠倒，成就了自顶向下和自底向上的两种方式，而我通常更喜欢前者。

在跑了大量的实验，把之前的工作都亲自在服务器上重新跑了之后，我给出了论文的主要表格，同时因为缺乏一些贡献点，将 MCF 里面的 tricks 进行了一些包装，并且讲述了在我的框架下的效果，作为贡献点之一，并且进行了投稿。

投稿结束的几天，可以说那时候就是春风得意马蹄疾，自诩为是某一种天才少年，年纪轻轻就可以以第一作者投稿 CVPR，但是结果确实让我清醒了不少，311。

可以说两位审稿人都给出了十分负面的评价，一位指出了我使用的两个模块本质上和 MCF 相同，两个人更多的还是对性能进行了质疑。具体来说，我在测试的过程中，把每一个模型都在统一的环境里面进行了测试，同时还把 batch size 进行了对齐，但是确确实实有不少模型，在这些测试里面的性能十分差，甚至和原文相差了十多个点，在后续的分析里面，我其实注意到这个现象，大概原因是，我 follow 了 MCF 的 K 折划分，而之前的工作都是在 UAMT 的单一划分中进行的，我不太清楚这个划分是不是精心 pick 了一些数据，但是反正就差距很大，那些模型在这个好的划分上提了很多的点，虽然和原文中讲的还有不少差距。当然除此之外，论文内容也有很多没有仔细看清楚，包括残留了一些之前的模型命名，以及一些符号的使用错误，所以以毫无疑问的转投了 ECCV。

我总结了一下问题，大概就是几点，一方面我不能用自己测试的数据，而是需要使用他们自己汇报的内容，这是比较重要的第一点，也就是说我需要在他们或许有一定造假嫌疑的数据中获得 SOTA，这带来了比较大的调参工作；一方面模型的方法还需要一些调整，不能和 MCF 完全一致，虽然说它里面的这两个方法也大概率不是原创性的，毕竟他主打的其实是异构模型的协同训练，但是至少将这两个方法讲出了自己的故事，我也有必要做一些调整，无论是在方法上还是在故事上；最后就是论文的写作还需要提升，ECCV 的时间其实不算很充裕，但是也给了我一定的润色时间。

于是这条路又一次开始了，我现是在这些数据集上进行了调参以及消融实验的记录，之后将两个小的模块进行了略微的修改，将整个的故事的侧重点更多地放在 progressive 的模块设计以及故事，而去弱化这两个为了撑住贡献点而保留的模块。同时我也开始修改这两个模块，让他们看上去更具有一些符合我的框架的内容，并且在主体框架的设计上加入了更多的细节。

在最后的时间中，其实就是对于论文的打磨了，也就是之前我所讲到的那些关于论文方法的一些阐述。可以说在我目前所处的下游任务中，想要提出一些惊世骇俗的方法是天方夜谭的，然而而我的这个小的框架还算比较有趣，就能让当时的我比较知足了，更进一步就是故事的阐述，来让我的方法听起来确实有它的价值所在。

在改完论文之后，又一次将图做了一点点的修改，然后和老师讨论了一下，对于一些细节在再做了润色，就顺利投稿了。

在做完这一篇工作的同时，我也开始了下一段的内容。事实上我是对多模态或者具身智能很感兴趣的，但是当时确实也就只有成绩还拿得出手，没有论文的发表，想要去外校找一些厉害的老师，实在是心里没有底气，因此只能静静等待第二次的结果。

下一篇工作其实相当无聊，或者说当时我做这一方面的东西已经快做吐了，所以对应的 idea 也是实在难以让我兴奋起来，不过因为还没有发表，也就暂时不进行透露了。我个人感觉这篇工作是将一个正常的 trick 拓展成了一个方法，并且使用一贯的故事进行了一些修饰，相较于上一篇，好歹在时间这个维度开拓了一下，这一篇实在是没有什么贡献点，只做了一些实验，然后提了一些点，更多的时间在代码的修改过程中度过。在这个过程中其实我还有提过其他乱七八糟的 idea，但是一方面都只是存在于空想中，一方面确实也比较没有意思，所以这段时间内我可以说是沉寂了，只在默默地跑实验，然后准备将来写论文，为了打发时间，也是做进一步的积累，开始阅读更多的我感兴趣的领域的论文。虽然说当时我的心理相当没底，但是按照老师的意思来说，即使这篇论文不成功，将来也可以投一篇 PR，因为从写作的角度上已经足够了，所以当时我的心理预期是大三上快要结束的时候，可以有自己的一篇论文发表，这其实已经相当极限，和我一开始的预期大相径庭了，这些到后面再说。

平淡生活

在进行科研之外，从开学到三月份结束 ECCV 投稿的这段时间里面，可以说没有发生什么大事情，而是只是在过着平平淡淡的生活。

乐小姐不是实验班，因此参与了大一结束的分流，在当时我的鼓励下，以及她自己的决心中，选择了比较喜欢的口腔医学，事实证明她的能力是够的，成功进入了喜欢的专业。

不过也是因为医学专业的原因，乐小姐不得不去雁塔校区生活，这是一个距离大多数同学在的兴庆校区很远的地方，打车可能要二十多分钟，至于汽车则一般没有考虑的必要。

公正地说，尽管雁塔校区看上去比较破败，但是实际上地理条件却非常得好。我经常和人抱怨西安的环境，这并非某一种出于“京爷”的傲慢，而是从宣传和实际中确实有着很大的区别。按照官方的宣传口径来说，西安应该是西北地区唯一的新一线城市，这个世界上不存在超一线这种说法，所以我认为的一线城市，一般来说指的是北上广深这种大都市，假如不算“新”这种说法，像是南京这种城市算得上二线，西安可能只能算三线城市了，说是十三朝古都，但是貌似只有陕西历史博物馆和兵马俑名不虚传。所谓的西安城墙，感觉和北京的建德门城楼子也没什么区别，而对于旅游属性的重复利用，也造就了一系列的模板化小吃街，里面动不动就是肉夹馍、烤肉、碳烤大鱿鱼、炸串、竹筒冰激凌、拉面，这些可以说除了肉夹馍都是各地小吃街都有的东西，也没有什么可以说道的。

在这里插一嘴的是，尽管这么说，但是之前在学习巷吃的烤肉（或许是西安烤肉的特色，店家都是烤完一大把之后在店里巡回，然后顾客吃多少要多少，最后按照签子收费，确实过瘾）以及之前吃到的不少肉夹馍，确实是味道不错。

我几乎可以这么说，在西安市内比较好的一处商圈，只有小寨附近那一片，而雁塔校区就坐落在那里，可以说坐享地利。甚至说，雁塔校区的生活区和教学区隔着马路相望，路口居然还有一个麦当劳。麦门，在兴庆就没有这样的待遇，而一份热气腾腾的麦辣鸡翅实在是令人嘴馋。

无论如何，尽管女朋友的校区还很不错，但是因为这种机缘巧合，我们还是被迫在同一所学校也异地恋了，好在那时候还有几个闲钱，所以就拿钱打车去找她，或者她过来找我，两个人腻在一起呆上一天。值得一提的是从这个时候开始，我也就逐渐开始承包了两个人吃饭的开销，基本大多数的时候都是我买单，然后带着女朋友到处吃，也是成功把海底捞吃到了黑海。说起来吃饭的一个遗憾，在大二五月份的时候，之前经常去吃的齐齐哈尔烤肉关门了，一斤肉不贵，而且是老家（姥姥家）的味道，加上辣椒蘸料，以及肉质确实很好，用不了多少钱能和女朋友两个人爽吃一顿。

现在回想起来那一段时间，可以说是岁月静好了，当时 CVPR 的结果还没有出，我还是意气风发的少年，口袋里有一些钱，和女朋友两个人一起开心的生活，而课程不多也不难，实在是令人怀念。

与此同时，另一件事情也在发生，这件事情，我不知道在将来会不会产生什么深远的影响，但是在当下来说，我认为还是一些事情的开端。当时在新生入学的期间，因为有不少同学都向我询问各种各样的问题，尽管像是钱学森书院有自己的新生指南，然而一方面里面的东西都是老生常谈的，另一方面大家也都希望知道一些顶级卷王的干货，恰好当时我的成绩也算不错，姑且也是一个顶级卷王吧。在这么多人的询问之下，我也就萌生了写一个新生指南的念头，并且打算在里面塞满干货，甚至可以说是塞满私货。

当时第一版的内容很快就写出来了，并且进行了分享，顺便科普了一些我当时对于科研以及竞赛浅显的认知，当时没有深入科研，并且加入了 RM 的我给出了我初版的意见。尽管回头来看，在当时推荐大家参加一些竞赛，实际上并非明智的选择，但是好在当时我阅读书籍和论文也不算少，所以在自学前沿内容上面还是给出了自己不少的见解，从今天来看也应该还是适用的。

大二下生活

在经过了上述的种种事情之后，也就自然而然的迎来了大二下，大二上的成绩考得不能说理想，但是至少还在可以接受的范围内，这样我进一步将天平倾向的科研，因为我讨厌考试，也不喜欢复习，我喜欢学习新知识的感觉，但是重复的复习和刷题让我感到厌烦。

整个寒假我没有做很多事情，主要还是以休息为主，这个主要以休息为主的话，在现在来看已经是遥不可及了，我现在已经很少能够闭着眼睛安稳地度过一天，更何况连续七天的休假，可以说这简直是奢望。

大二下之后事情并没有什么转机，只是将一切在平淡的进行着推进。QZZ 可以说也是在我的怂恿下进行了科研，而 LXW 进行了一些代码的开发。尽管从我的视角上来看，在他的开发下代码进一步的变成了屎山，但是至少出了一些效果。

至于我的生活还是按部就班，每天是在社团里面看看论文，学习一下技术，然后继续推进我的那个新课题。在这个过程中，或许有必要提及的是我们建立了 AI 学组，并且 YXJ 同学作为领头人。事实上我并不知道他为什么有这个资格担任这个职位，我们这个年级里面超过百分之八十的资料是我一手写出来的，而他的贡献量是零，直到后面一些同学开始参与才有所好转，但是即使这样可能我发表资料也超过了百分之五十。

尽管大多数的内容都是我一个人创造的，但是在前面加上一个学组的前缀，我倒也并不是十分反对，当时我还抱有一种期待，认为这些同学们被聚集在了一起，说不定确实可以有所突破，事实上这种想法是正确的，但是出现在了之后的学弟学妹身上，我们这个年级可以说是寥寥无几。

然后除了参加比赛，这个内容已经在 RM 回忆录里面说过，剩下的时间就到了期末考试前，也不知道那时候的我是怎么想的，那个时候忽然开始了想要写作西安交大生存指南的念头，并且开始创建我的博客，并且记录下我的一些想法。

然后就是激动人心的 ECCV 开分时刻了，可以说是堪称不可思议的结果，我居然获得了 443 的分数，这个一边倒的好分数可以说很大的鼓舞了我。在这个分数之前，我当时已经受到了太多负面的反馈，可以说只要有一个正面分数，我就已经知足了，然而没有想到它居然给了我这么多的希望。

从现在来看，这个分数简直就是一个奇迹，事实上这篇工作的含金量完全到不了这个分数，但是恰巧每个审稿人都刚好到了欣赏的程度。有的时候我会想，假如说我没有获得这个分数会发生什么，我应该不会觉得失望，毕竟当时我已经做了心理预期，想好了自己面对的结果是什么。但是假如按照这种结果来看，选择了科研，或者说认为自己是做科研的料，根本就是一个笑话，这是一次错误的决定，我在一个没什么前途的领域里面花费一年时间，伴随着成绩的退步，结果是一无所获。

但是好在是成功了，所以一切的情况都逆转了过来，从一次失败的决定，变成了在容易出成果的领域里面发表了一篇还不错的工作，并且获得了审稿人的认可，可以去到更好的科研平台，甚至领先了绝大多数的同龄人。

在获得了这个分数之后，我很快就草拟出来了一大堆的 rebuttal 内容，试图稳住 4 分的审稿人，并且让 3 分的审稿人提一些分数。第二天我便前去找老师进行讨论，并且定下了 rebuttal 的基调。三个审稿人都比较温和友善，提出的问题也不算特别尖锐，可以说只有几个疑惑需要解答，并且认为论文的写作中有一些笔误和不清晰。于是任务便定下来了，重新作图，完善 motivation 以及 pipeline 的表达，老师请来了两位师兄师姐，与我共同完成这些内容。

不得不说，本人的作图审美可以说是一塌糊涂，两位师兄师姐则是颇有水平，一方面在他们的指导下，一方面他们亲自上阵帮忙，仅仅是一天时间，图片变已经从原来的莫名其妙变为了颇具顶会风格的插图。然后便是我较为擅长的内容，打磨文字，删减字数，顺便和老师讨论表达有何不妥，最后提交了 rebuttal，一切告一段落，顺便进入了期末周的复习阶段。可以说这个初审的分数给我带来了极大的希望，甚至说这种希望近乎已经成为了一种折磨，把我从原来对于 ECCV 已经不抱有任何幻想的状态，拉进了每天的煎熬中。

那段时间几乎每天我都会看知乎相关的话题回复，看看又有多少人超过了我的分数，还有多少人逊色于我。我的分数确实处于一个领先地位，这是一个安慰，但是随后更大的焦虑便袭来了。万一我所在的领域分数都是如此的高；万一审稿人看见了彼此的评价，并降低了分数；或者干脆就是 meta reviewer 看我不顺眼，于是直接将我 reject。毕竟这些内容在网上都能找到前科，而我对于我的运气下来不是十分自信，当时甚至立下了，假如中稿便拍摄二十张精心设计的女装照的对赌。

话题回到西安交大生存指南，于是按照当时我的执行力，我很快就完成了一系列的内容，将我当时的一些个人见解和经验都总结了起来。尽管当时我还没有中稿 ECCV，所以还没有资格以一种成功前辈的姿态去进行教导，但是我也率先写下了这些内容，因为不管结果如何，这些事情都是我在踩坑之后的个人体会，并且我坚信这些东西对后人会有一些帮助。与此同时，我还写了一个 AI 自学指南，但是直到现在我还没有继续完工，因为现在的事情实在是太多了，确实没有心思放松下来去写这么一个需要系统整理的内容。不过我把两个内容的前言都空了下来，我在祈祷 ECCV 可以有一个好结果，那时候我也就可以挺起胸膛去写下这些内容了。

轻舟已过万重山

我记得是很清楚的，那时候我的编号，那个时间，以及那种心情。按理来说，论文的结果会在第二天凌晨出，于是我决定熬夜，但是在大概六七点的时候，投稿群里面忽然就有了消息，说结果已经提前出了，我点到网页里面，然后颤颤巍巍地搜索了我的编号，8535，然后没有任何结果，我的心几乎停了一拍，接着发现号码输错了，改正过来之后找到了那个一，一种说不出来的情绪萦绕在了我的心间，像是我用了一年时间在肩上托举的一块巨石，终于被我轻轻放下，我跟旁边的好朋友 GYT 说，我中稿了。

紧接着我瘫坐在椅子上的时候，一种欣喜才迟迟地涌上我的心头。我一时间似乎有些想哭，但是哽咽就卡在嗓子中，哭不出来，一路上可以说经历了太多的坎坷，绝对不是这一篇博客，几段文字，简简单单便可以概括的。好在一切都有了结果，好在努力得到了回报。接下来我开始向各路关心我的人报喜，然后发了一条 QQ 的说说。

接下来我告诉老师，并且开始查询注册的相关事情，然后平复心情，写了我的两个指南的前言，进行宣传，然后发了一条说说。

说说里面的话，在第一周的周记里面已经写了，剩下的还有什么呢？我还是想再说一次，一句，轻舟已过万重山。

可以说这一次的成功，虽然说相较于我一开始的天才少年的预想，还是差了一些，没有在大二上就早早的获得了论文发表，并且出去进行科研实习，但是依然已经是十分可喜可贺的成果了。其实一开始我的设想一直是，大二上一篇文章，大二下再投出去一个，手里拿着两篇文章去进行申请会好很多，然而一方面到了后面我发现文章的中稿并不是那么简单，另一方面一篇文章就已经比较有含金量了，所以也就开始进行了下一步的打算。

绿群往事

我在大二上，甚至可以说我在大一下的时候就已经开始接触绿群，并且在里面认识了非常多的朋友。

从另一方面来说，因为在早期接触了 RM，养成了一些通宵的坏习惯，并且习惯于把电脑之类的东西都统一放在社团里面。可以说作为重度“网瘾”的我来说，一切的事情都要通过电脑上的工作流来解决，这导致我基本上没有回寝室和舍友交流的机会，当然也可以说这是我的咎由自取。反正无论如何，我在现实中与身边的同学们的交际并不算多，算得上好朋友的同学曾经有过几位，但是后面也都渐渐疏远了，主要是我不太习惯在社交工具上与别人一对一聊天（除了和女朋友），自然而然和他们就渐行渐远了。反正是因为各种原因，反而我在网上认识了很多的朋友，这里面来自于绿群的大概有二三十位，大多数同学比我大一级或者两级，也有一些和我是同级的。大概是因为我经常在群里面卖萌的原因（即口癖“喵”以及女装），以及经常和大家聊天，所以说倒也还算是比较知名。

这里面的不少同学，我也有和他们私下交流过，包括一些生活上的琐事或者是科研的见解，可以说是受益良多。

在这一年里面，我倒也做了不少的东西。一直以来绿群的服务是通过 Github 作为主要阵地，会维护一些夏令营信息以及实验室实习的信息，至于其他的内容则大多都被放在了群聊里。当时其实就有注意到一个现象，尤其是在下半学年里面，很多同学因为缺乏自信或者比较慌张，经常愿意在群中发表自己的具体情况，并且寻求其他同学的建议，类似于自己的水平可以去哪样的学校，通常称之为保研定位。实际上这种地位并没有很多的价值，但是毕竟能获得一个心安的效果，只是群里面消息说的太快，很多同学很难被照顾到，同时那些熟练可以定位的群 u，又经常不会在群聊中一直活跃，于是构建一个定位表的想法第一次诞生了。

就用腾讯表格创建了第一个定位表，当时由我来进行维护，搭建了一个简陋的雏形，可以进行匿名的情况上传，比如说输入自己的学校、排名以及竞赛科研情况，然后后面几个位置给其他人去进行评价。这个表格在推出伊始就获得了大量的关注，上千名的同学在里面填写了自己的情况，并且也有人进行积极的回复，甚至在小红书和知乎都获得了一定的传播。后来其他保研交流群，比如自动化交流群也迅速的进行了仿照，这可以说是我做出的第一个比较有影响力的事件。后面我对这个表格也进行了一段时间的维护，包括建立了排序功能，记录那些情况的被回复数量，并且加回复少的排在前面。

但这种风气之后还是没落了，一方面填写的人的激情是有限的，而另一方面，整体用户的数量也到达了一个上限。而且因为各种保研中介也来访问这个表格，爬取数据之后还将表格进行举报，出于隐私安全我又添加了权限限制，这导致易用性进一步下滑，后来更是转战谷歌，谷歌表格免去了被举报的风险，但是也进一步导致可以编辑表格的人数受到了限制，因为谷歌并不支持开放的表格，而且必须限制在一定允许用户范围内。

不过无论如何，这可以说是我在参与水群之外的绿群事务中第一次的亮相。在之后，一次和群友的闲聊中，大家都提及了 ccfddl，这是一个在科研圈知名的网站，统计了符合 CCF 的会议的截稿时间，十分的方便，而保研的各种夏令营和预推免报名，正好也符合这个需求。发现了实现的可行性之后，我立刻展开了行动，用了一个晚上的时间就实现了基础的功能，并且在后面进一步使用 Github Action 来进行自动化的处理，方便其他人对网站的数据库进行贡献。按照目前的方法来说，只需要提交一个 Issue，Issue 中的数据就会自动同步到网站里面。

这个网站长期以来给无数的学子提供了数据支持，并且可以帮助他们查漏补缺一些自己有能力去，但是没有注意到的去处，获得了上百个 star。

这个事情确实获得了广泛的讨论，而且这个项目目前依然在维护的状态下，相信在 2025 年也可以实现价值。因为为这件事情，以及之前的若干事情，我需要频繁发布群公告，来告知项目的更新情况，于是我顺理成章成为了绿群的管理员，并且进一步在 Github 中获得了绿群组织的 owner 身份。

上海实习

暑假可以记录的事情，就是在暑假又一次去了深圳，陪着 RM 的队伍参加了比赛，然后又一次获得了十六强的成绩，这大概花费了一个月的时间，算是一个小小的插曲。

除此之外，也就是目前最重要的一件事情发生了。因为之前 ECCV 的中稿，以及时间的紧迫，我决定现在就开始实习，并且前往我比较喜欢的实验室。在询问了绿群的前辈以及广泛的调查之后，我陶瓷了 OpenRobotLab 的老板。可以说上海人工智能实验室是我从很久以前就一直特别想去的地方，大概是从大一开始了解科研的时候，就有听说那边的很好的氛围，不错的待遇，以及大量的科研资源，可以说是我非常理想的一个去处，所以说我的挑选范围从来就是在这个大的实验室下面的不同小实验室中。在多模态以及具身智能之间进行了挑选之后，我选择了具身职能作为目标的方向，事实上，我在此之前主要阅读过的是一些多模态领域的论文，或者更准确的说，其实是大模型时代这方面的论文，但是鉴于这个领域已经很久没有出现我比较喜欢的工作，以及具身的交叉范围更广，前景也更深，我认为也很有意思，于是做出了这个选择。

在联系了那边之后，那边的回复也是很快，大概就是当天就有了回复，那边的大老板约了面试。也就是那段时间，我开始陆续阅读了一些具身智能领域的文章。事实上，在此之前，我可能接触的更多的一些文章还是主要来自于多模态领域，尤其是大模型时代的一些论文，这里面主要是因为这些论文确实都比较有意思，当时读起来也很快。

然后进行了面试。面试的内容也不算很难，就是一些自我介绍，讲了自己之前的论文，并且讲了一下一些自己的领域里面的理解，经常被大家吐槽的公式以及代码的考核其实并没有太多，也可能是因为有论文发表，所以轻松了不少。

之后就是八月份，在深圳的比赛结束之后，我就立刻前往了那边，在公司旁边租了房子，并且开始了一个多月的上班生活。事实证明我没有什么不适应，一个人来到一个新的城市，然后独自生活和上班，这件事情对于我来说已经很自然。

上海本身和北京没什么大的区别，或者说我的活动范围一直在公司的附近，因为基本上全部的时间都在写程序以及科研，甚至在周六日也会去那边，所以说实际上并没有什么自由探索的机会，只是印象比较深刻的是那里的饭菜都很贵，在北京生活的时候，一般是家人带着出去吃，而西安又有学校食堂，外面的饭菜也不算贵，但是在上海吃一顿饭动辄就三十块钱起步。

在上海这段时间，也是认识了实验室里的其他同学以及 mentor。我和大老板淼哥交流不多，组里是伦哥带着，以及认识了豪哥、洋哥、xiaoshen、xinyi、haifeng 很多人，并且还和绿群不少的群 u 线下见面吃了饭（很多大三的同学当时都在上海人工智能实验室实习），可以说是拓展了一波社交，以及彻底融入了新的科研节奏和环境，认识了很多新朋友。

去上海的这段时间主要还是带着我的游戏本（大学入学时候买的外星人电脑），十分的笨重，而且因为电池老化，只有一个小时左右的续航，这也为我后续在大三的时候购买新的轻薄本埋下了伏笔。同时在那边还和两位其他的来自西安的同学 Selen 以及谢老师认识了，Selen 也是我这个领域的，将来可能会有很多交集，大家都是很好的人。

在上海线下的这段实习，主要就是在开始做了一次 paper reading，并且后续完成了一次算是考核任务的内容，复现了一个开源但是非常难以迁移的论文，并且熟悉了 Isaac Sim 的仿真平台，开始正式进行自己的课题。

但是确实时间不是很多，可以说是匆匆开始就已经结束了，后面就和 mentor 商量了一下，毕竟我是非常想后续就在上海人工智能实验室读博的，所以说肯定是要长期实习，在设置了若干的 todesk 等设备之后，就转了远程，然后就坐高铁回了西安。

尾声

大二的生活其实比大一单调了许多，没有那么多的社团活动和社交，我把交往的重心转向了网络，而现实中基本上只有乐小姐这一个锚定点，所以读者才看到本篇内容的时候，会发现主要的讲述就是科研以及 RM，而几乎没有其他事情，事实也确实如此。

假如说大一的生活是第一次面向自由的美好，因为考试的顺利而偶然走向了学习这条路，在懵懂中探索，那么大二则是更加确定了自己的方向，我尝试了科研，并且有了科研产出，同时在一年之后，前往了新的实验室。这种速度虽然稳定，但是还没有令我足够满意，尽管我有了产出，但是也不尽如人意。

虽然对于自己还有诸多的不满意，但是这只是针对自己而言，假如与大多数同龄人而言，这依然是遥遥领先的状态了。大多数同学还宅在寝室里面打游戏，在课上刷着视频，任由时间的齿轮空耗。我可能相较于我大一的情况，现在已经免去了内耗，因为从一些角度来说，我确实已经走出去了太远。我不会在意同学的成绩是否比我高，或者大家的科研进展究竟是否比我快，我已经走在了自己的这条路上。

从现在的角度来看，我的大二生活相较于自己的设想，是骨感的，没有那么的丰富，充满科研以及学习，而是依然有很多时间在空耗的自我感动中度过，但是依然已经是可圈可点的一年了。只是新的大三中，我或许还可以做的更好。

周记 Week26

Wed, 01 Jan 2025 00:00:00 GMT

早安，周记，我是你们的主持人阿汐。这周的通宵是满打满算整整七个，但是两个考试也来了，我看你们全要泡汤。

考试

这周简单来说考了两次试，一个是开卷考试，另外一个是选修课考试，所以说压力都不是很大。选修课考试虽然是闭卷，但是老师处了一份复习大纲，基本就是按照题目的形式出的，我也就考前用 GPT 处理了一下，全部的题就没有问题了，也没有遇到类似于幻觉的情况。开卷考试反而是复习两天，但是考场上翻书依然很急，最后把试卷该写的都写上去了。

科研

剩下的时间就是在科研了，项目一直在推进，在这周的结尾，我也开始接触了训练模型，以前做的工作马上就要成为一个闭环的体系，发表之后也会在这里详细说一下。

实际上这个星期也没什么可以说的事情，但是还是要在这里忏悔一下，说好的要做很多的进步，比如说我希望以天为尺度来让自己比昨天更好，至少看一篇论文，或者学习点新的编程知识，记录下来一些感想，但是一方面因为考试的事情，一方面在科研下面花了很多时间（这部分主要说的是代码的时间，毕竟现在有一个需要推进的课题，因此已经有很长时间没有去主动看论文了），但是反正因为这种原因，之前说好的事情都没有兑现。

正好 2024 年也结束了，应该会考虑出一个年终总结，以周为单位没什么进展，但是这一年还是比以前强了很多，可以说有不少的高光时刻可以回放，等我处理完了考试就会开始写，穿插在科研之中，算是是一种调剂。暂时先这样吧，而且也确实因为科研有一些保密的属性，导致一直以来的周记都没什么可以分享的东西，这些事情都会在年终总结里面提到，并且争取为新的一年定下一些计划。

周记 Week25

Tue, 31 Dec 2024 00:00:00 GMT

所以说，又是很久之后的一次周记，主要有几件事情可以记录，但是和之前相比还是大差不差。

考试

一方面是考试，计算机视觉的考试正式结束，这门考试我复习的应该算还行，考试里面的大多数问题我都能立刻写出来。不过不得不说的是，这里面有很多对于一些人来说喜闻乐见的背诵问题，答案事实上这些东西并不应该是人工智能这门学科考察的本质（比如说问 RCNN 与 Fast- RCNN 的区别）。但是话也说到这里，尽管我可以这么不负责的说，但是毕竟是本科的课程，还需要考虑大多数的同学，一些背诵和一些计算，自然是最为恰当的，而进一步的科研话题，就交给科研的人去做吧。

下周的考试有两门，但是都不是很难。一个是选修课，基本上就是按照老师发的所谓的复习大纲复习一下就好，毕竟那个复习大纲已经长得像题目一样了，很难不做出相应的怀疑。直到这周末结束，我才把这个大纲转化为其题目对应的答案，这个过程也很简单，直接交给 GPT 输入一遍就结束。其实这也进一步引发了一些思考，伴随着模型的幻觉越来越少，我是真心感觉绝大多数的文科专业没有了存在的必要。一门考试则是一个开卷考试，感觉在考前看一遍就好了，类似于做一遍键值对的索引，之后在考试上翻书也会快一些。

剩下的考试就要到下下周和下下下周，各有一个比较难的考试，但是也不会带来很多的困扰吧，希望这方面很顺利。

科研

同时在科研方面也取得了一些进展，大概就是代码写得很顺利，都在按照之前的规划完成，并且根据目前的展望来看，距离一切结束已经快了，到时候也可以先把论文发出去，后续再去把代码整理一下。

可以说考试和科研就是现在的两个主基调，除此之外就是给乐小姐买了裙子，然后和她度过了开心的很长时间。至于其他的事情，走一步看一步吧。我还是非常喜欢科研的，所以迫切的希望占据我时间的考试这一项消失掉。

Anygrasp 踩坑

Sat, 21 Dec 2024 00:00:00 GMT

import { Aside } from 'astro-pure/user'

最近正在配置 AnyGrasp，在这里记录一下遇到的问题。我的环境为 Ubuntu 22.04, CUDA 12.1, cudnn 9.3.0。

基础配置

首先先给出 AnyGrasp 的 Github 仓库链接：https://github.com/graspnet/anygrasp_sdk，其中的 Installation 部分给出了简略的安装步骤，但是因为其依赖的 MinkowskiEngine 已经年久失修，所以需要一些额外的操作。

先配置一个 conda 环境：

conda create -n anygrasp python=3.10
conda install openblas-devel -c anaconda
pip install torch 'numpy<1.23' ninja

MinkowskiEngine

接下来可以开始配置第一步，也就是 MinkowskiEngine：

git clone https://github.com/NVIDIA/MinkowskiEngine.git
cd MinkowskiEngine

根据经验来说，需要配置以下的环境变量：

export CXX=c++
export CUDA_HOME=/usr/local/cuda-12.1
export MAX_JOBS=2
export SKLEARN_ALLOW_DEPRECATED_SKLEARN_PACKAGE_INSTALL=True

其中后两者，MAX_JOBS 是 CUDA: Out of memory 的 Issue，SKLEARN_ALLOW_DEPRECATED_SKLEARN_PACKAGE_INSTALL=True 是 sklearn 过期的 Issue。假如说之后执行安装操作：

python setup.py install --blas_include_dirs=${CONDA_PREFIX}/include --blas=openblas

首先可能存在的报错，核心问题为 error: namespace "thrust" has no member "device"，本质上还是年久失修，和 CUDA 12.X 不兼容了。

根据仓库里的 Issue#543 可以找到对于我适用的方法，即在四个不同的文件中添加 #include：

#include <thrust/execution_policy.h>

#include <thrust/unique.h>
#include <thrust/remove.h>

#include <thrust/execution_policy.h>
#include <thrust/reduce.h> 
#include <thrust/sort.h>

#include <thrust/execution_policy.h>

之后可能会有报错 ModuleNotFoundError: No module named 'distutils.msvccompiler'，那么执行 pip install "setuptools <65"。

之后再次安装，也会有报错：

Traceback (most recent call last):
  File "/home/gaoning/miniconda3/envs/anygrasp/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 2105, in _run_ninja_build
    subprocess.run(
  File "/home/gaoning/miniconda3/envs/anygrasp/lib/python3.10/subprocess.py", line 526, in run
    raise CalledProcessError(retcode, process.args,
subprocess.CalledProcessError: Command '['ninja', '-v', '-j', '2']' returned non-zero exit status 1.

可以编辑 setup.py：

setup(
    name="MinkowskiEngine",
    version=find_version("MinkowskiEngine", "__init__.py"),
    install_requires=["torch", "numpy"],
    packages=["MinkowskiEngine", "MinkowskiEngine.utils", "MinkowskiEngine.modules"],
    package_dir={"MinkowskiEngine": "./MinkowskiEngine"},
    ext_modules=ext_modules,
    include_dirs=[str(SRC_PATH), str(SRC_PATH / "3rdparty"), *include_dirs],
    cmdclass={"build_ext": BuildExtension.with_options(use_ninja=False)},
    author="Christopher Choy",
    author_email="chrischoy@ai.stanford.edu",
    ...,
)

将 use_ninja 设置为 False，之后再次执行，就没问题了。

Noting that，在 CUDA 12.4 安装的时候，出现了额外的报错，其内容为 error: no instance of overloaded funcntion "std::__shared_ptr<_Tp>::_M_enable_shared_from this ..."，一共会唤起若干的报错，但是本身都是围绕 __shared_ptr 以及 __to_address 的，具体为 overload。

这个问题需要修改 /usr/include/c++/12/bits/shared_ptr_base.h（我是这个，Issue 中有人说是别的，为 ptr_traits.h），搜索并替换：

auto __raw = __to_address(__r.get()); // [!code --]
auto __raw = std::__to_address(__r.get()); // [!code ++]

然后还可能出现另一个错，是 ld: cannot find -lopenblas: No such file or directory; collect2: error: ld returned 1 exit status，这个则在安装了 conda install openblas-devel -c anaconda 之后，需要进行一次 cp，对于我来说，这个指令是 cp /ssd/gaoning/miniconda3/envs/anygrasp/lib/libopenblas.so* /ssd/gaoning/miniconda3/envs/anygrasp/lib/python3.10/site-packages/torch/lib/.。

之后照常安装即可。

AnyGrasp

之后安装 anygrasp_sdk：

git clone https://github.com/graspnet/anygrasp_sdk.git
cd anygrasp_sdk
pip install -r requirements.txt

PointNet2

之后安装 pointnet2：

cd pointnet2
python setup.py install

值得一提的是，在安装 pointnet2 的过程中依然可能出现 Command '['ninja', '-v', '-j', '2']' 的报错，解决方法同上，依然是修改 setup.py 中的 setup() 函数的传参。

在这一过程中还可能出现一个比较罕见的问题：

gcc: fatal error: cannot execute ‘cc1plus’: execvp: No such file or directory
compilation terminated.
error: command '/usr/bin/gcc' failed with exit code 1

一般来说直接 sudo apt install build-essential 就已经可以了，但是我的问题不止于此，因为系统里的 gcc 和 g++ 都没问题。检查之后发现，这是因为 pointnet2 的编译过程中涉及了使用 gcc 并且调用 g++ 的操作，而 gcc 大概率调用同版本的 g++，可能是因为 gcc --version 和 g++ --version 两个的版本不一样，所以就导致了这个问题。使用指定版本的 sudo apt install 进行重新安装（版本在 Ubuntu 22.04 可以是 12）：

sudo apt install gcc-12 g++-12

之后正常安装即可。

License Checker

最后是使用 AnyGrasp 需要 Key，而这个 Key 需要生成，因此需要使用 ./license_checker -f，而因为 Ubuntu 22.04，这个也会报错，一个是缺少 libcrypto.so.1.1，一个是 sh: 1: ifconfig: not found。

# to solve libcrypto.so.1.1 issue
find / -name libcrypto.so.1.1
# for example found a libcrypto.so.1.1 from cuda
sudo ln -s /usr/local/cuda-12.1/nsight-systems-2023.1.2/host-linux-x64/libcrypto.so.1.1 /usr/lib/libcrypto.so.1.1
# to solve ifconfig issue
sudo apt install net-tools

同时运行 ./lincense_checker -f 之后输出的机器码，大概率最后以 % 结尾，这个因为在输出的时候没有添加换行提示符（Python 的 print() 自带换行符，而写这个程序的编程语言有可能不带），提交不包含 % 的内容到申请表中即可，另，邮箱需要使用教育邮箱。

奇奇怪怪的 Bug 集散地

Fri, 20 Dec 2024 00:00:00 GMT

前言

平时遇到一些奇怪的代码问题，记录并整理，内容如下。

博客渲染超时

在 Hugo 中，如果博客文章较多，渲染时间会非常长，导致渲染超时。具体考量可能是因为担心无限递归之类的，hugo 使用了粗暴的解决方法，超时就中断并且报错。所以解决方法也很简单，修改 config.toml 文件中的 timeout 配置项，增加渲染超时时间，单位貌似是毫秒。之前一直没有看 Github 详细报错，之前又出现过 Github Actions 瘫痪，我还以为又出现了，re-run 之后也就好了，估计是因为当初体量卡在临界点上，现在彻底超时了，也就发现了这个问题。

GPT API 调用显示 Unknown scheme for proxy URL

在使用 GPT API 的时候，正常的发送 request，显示：

但是此时我已经将全部的代理关闭了，更不要说后续要需要开启代理才可以连接 https://api.openai.com/v1，经过检查之后，大概是因为自己的网络环境太过于乱七八糟：

env | grep -i proxy

可以查看到究竟是哪个环境出现了问题，之后正常使用 bash 或者 python 程序都可以进行修改，本人是发现 ALL_PROXY 出现问题：

unset ALL_PROXY
unset all_proxy

env | grep -i proxy

export ALL_PROXY="http://127.0.0.1:7890"
export all_proxy="http://127.0.0.1:7890"

import os
os.environ['ALL_PROXY'] = 'http://127.0.0.1:7890'
os.environ['all_proxy'] = 'http://127.0.0.1:7890'

重点其实在于找到哪个有问题，并且进行覆盖，unset 是严谨起见，其实无所谓。

EndeavorOS 安装导致的多系统不兼容问题

在此之后我有尝试过使用 EndeavorOS，出于想要使用 ArchLinux 的想法，当然，在这个过程中还是出现了一些问题。我的 Ubuntu 22.04 是在 EndeavorOS 之前安装的，里面包含我目前进行科研所需要使用的一切环境以及内容，而 Arch 只是作为自己的日常使用，我为此删除了之前安装的 Ubuntu 20.04，但是也因此导致了不少的问题。

首先就是在安装了 EndeavorOS 之后，Grub 无法找到 Ubuntu 的引导，这自然是因为 EndeavorOS 的引导替换了我本来使用的 Ubuntu 引导，但是按理来说不会出现这个问题，因为不同的系统我都是分配了不同的 EFI 分区的，就算有的安装会刷这个分区，在我的电脑里面按理来说也不会出现问题才对。

经过了检查之后发现是一个比较简单的问题，需要更新 GRUB 以检测所有操作系统：

sudo pacman -S os-prober
sudo vim /etc/default/grub

并且修改其中的 GRUB_ENABLE_OS_PROBER=true，并再次更新 sudo grub-mkconfig -o /boot/grub/grub.cfg，就没问题了。

另一个问题在于发现重启之后进入 Ubuntu 的时候总是会十分的缓慢，这个检查了一下之后发现是因为我之前把 Ubuntu 20.04 使用的 swap 给格式化成 EndeavorOS 使用的 swap 了，因此 UUID 变了，每次启动的时候会为了寻找 swap 而等好久，需要进行修改，在 Ubuntu 中进行：

sudo blkid
sudo vim /etc/fstab
sudo update-initramfs -u -k all

其中 vim 的部分可以在其中找到自己的 swap 分区的 UUID 并且进行修改，而后使用 update-initramfs 来更新全部的内核。

Windows 新电脑配置

最近换了新电脑，于是在新电脑里面配置了 Git 以及 Github，还是按照我自己一贯的方法，详情见西安交大生存指南贡献指南，但是出现了一些 Bugs。

首先第一件事情就是使用 Git 的时候，在配置了密钥之后，SSH 还是会卡死，这个问题是因为 Git 版本导致的。我之前使用的是 2.45.2 版本，而现在已经变成了 2.47.0，不知道为什么就出现了这个问题。版本在 Git 的官网找不到，但是可以在 Git for Windows 的 Github Releases 界面找到。

然后就是在使用浏览器的时候，起因是因为我在使用 ToDesk 的时候，不知道操作了什么，有的时候会让电脑的 Web 相关的界面变得模糊，有点像是重影，这一现象可以通过关闭浏览器的硬件加速（或者叫做图形化 xxx）解决，但是 Wallpaper Engine 同样使用 Web 框架，暂时没找到对应的选项，其视频加速选项貌似不是。暂时不清楚是 CPU 问题还是电脑或者系统问题，希望将来的更新可以解决。

SSH 登录实验室堡垒机报错

在上海那边的实验室，登录并且操作集群需要使用堡垒机，在开通账号之后使用 SSH 即可，但是却出现了奇怪的报错，具体内容为 no matching host key type found. Their offer: ssh-rsa，一开始我还觉得是类似于服务器那边的一些配置我没有做好，但是详细了解之后发现，按理来说直接使用账号密码在内网中就可以登录，于是问了一下 IT，得到了解决方法，适用于同样报错内容的场景。在 ~/.ssh/config 中添加以下内容：

HostKeyAlgorithms +ssh-rsa
PubkeyAcceptedKeyTypes +ssh-rsa

Pip/Conda 安装空间不够

这个事情严格来说不能说是一个 Bug，但是算是程序里面的杂事，而且找了半天问题，所以也记录一下。本身的症状很简单，就是在 pip install 的时候输出了 no space left on device，问题已经写在脸上了，就是空间不够，问题是如何解决。

我使用的是实验室的服务器，这个服务器是一堆人一起在使用。因为一些历史原因，我有 sudo 权限，所以 cd home 然后 du -sh */ 了一下，扫了一圈大家的空间，确实有人一下子用了大几十个 GB 的空间。在这里有必要介绍一下服务器的使用礼仪，一般来说会有专门的数据盘，在这个里面被挂载在 /ssd 下面，而按理来说 /home 下面应该几乎没有东西才合理，不然容易出现各种的问题。

既然如今已经出问题了，这些人一时半会联系不上，而且也不能指望他们。根据我们的数据盘叫做 ssd 来说，应该速度还可以，所以说干脆直接把环境全部迁移到 /ssd 下面。理解一下，整体需要迁移的包括 conda 的安装路径（我使用的是 miniconda），以及需要修改一下 pip install 的 cache。

于是复制 conda，这里面我之前安装在了 ~ 下面，也就是先 cp -r miniconda3 /ssd/gaoning，然后 vim .bashrc：

...
export PATH="/home/gaoning/miniconda3/bin:$PATH" # [!code --]
export PATH="/ssd/gaoning/miniconda3/bin:$PATH" # [!code ++]

然后运行 source ~/.bashrc。确认没问题之后就可以 rm -rf /home/gaoning/miniconda3 了。然后就是 pip 的 cache，需要修改这个的默认目录。

首先 mkdir -p /ssd/gaoning/.pip_cache，然后使用 vim ~/.pip/pip.conf，假如说之前没有这个文件（可能你之前没有操作过类似于设置 pip 的 index url 的操作），那就创建一个，然后写入：

[global]
cache-dir = /ssd/gaoning/.pip_cache/

但是按照这个操作之后，发现还是有问题，很诡异。然后简单查了一下，就发现问题了，因为在下载的时候其实会使用默认的 TMP 目录，于是需要 mkdir -p /ssd/gaoning/tmp，之后 vim ~/.bashrc：

export TMPDIR=/ssd/gaoning/tmp

然后 source ~/.bashrc，之后就没有问题了。

解决 Ubuntu22.04 搜狗输入法无法输出中文

Thu, 19 Dec 2024 00:00:00 GMT

众所周知，在 Ubuntu 系统中，假如说在安装的时候选择了中文作为语言（一般来说我在写教程的时候会推荐这么做，之后再把中文换回英文，而把输入法留下来），那么你的电脑中会包含一个 Ubuntu 的默认的输入法，然而不说这个输入法不是很符合中国人的说话习惯，其也很难根据你的打字来学习你的打字习惯。一般来说唯一的解决方案就是使用搜狗输入法。

安装

具体的方法如下：

前往搜狗输入法的官网并且下载 Linux个人版，这时候就会开始下载搜狗输入法的 .deb 包，并且进入搜狗输入法的教程界面。然而虽然说一般情况下这个教程是好用的，但是在 Ubuntu 22.04 的时候，或许需要额外进行一些操作，以下从头来讲。

首先需要安装 fcitx：

sudo apt install fcitx

之后进入设置中的区域和语言（Region & Language），选择 Manage Installed Languages，在 Keyboard input method system 中选择 Fcitx 4。当然，假如说你本身没有配置过中文，需要先在 Install/Remove Languages 中选择简体中文并且点击 Apply：

安装依赖

之后再安装一些依赖并且删除 ibus。

sudo apt install libqt5qml5 libqt5quick5 libqt5quickwidgets5 qml-module-qtquick2
sudo apt install libgsettings-qt1
sudo apt remove --purge ibus

之后 reboot 重启电脑，应该就会出现搜狗输入法了。假如没有的话，点击输入法，选择 配置 或者 Configure，添加点击加号并且搜索搜狗输入法（sogoupinyin）进行添加。保险起见，可以把别的输入法都按一遍减号来删除。

此时搜狗输入法就安装好了。其中主要的坑在于，安装依赖并且删除 ibus 这一步骤，在搜狗输入法自己的教程中没有给出。

Ubuntu 22.04 三系统安装以及安装显卡驱动后无线网卡恢复

Thu, 19 Dec 2024 00:00:00 GMT

因为 Ubuntu 20.04 的若干的内容已经不再支持，使用起来最新的一些软件基本上全是报错，比较经典的就是 GLIBC 2.3.1 以及 libssl.so.3 等内容，而前者的安装十分的麻烦，所以干脆直接安装三系统。

三系统的安装不是很困难，将新创建的 EFI 分区作为引导器就好（理论来说，全部的系统都可以使用同一个 EFI 分区，但是我之前安装的时候，当时太过于稚嫩，胡乱操作出现过问题，现在不太敢尝试，所以没有踩过坑，在这里不作为介绍的方法），之后在系统的 GRUB 界面就可以看到三个系统了。

切换 Grub

一个常见的问题在于，如何切换 Grub。比如说我之前已经给我的 Ubuntu 20.04 的 Grub 安装了一个主题，而安装了新的系统之后，这个 Grub 会被新系统的 Grub 覆盖掉，那么应该如何处理呢。

假如说按照上述的方法，那么你在进入系统的时候其实是可以看到自己的之前的系统的，进入之前的系统之后，可以运行：

sudo update-grub
lsblk
# 输出中可以找到 MOUNTPOINTS 为 /boot/efi 的项，记住其 NAME
sudo grub-install /dev/nvme0n1p1 # 以 nvme0n1p1 为例

之后重启即可。

无线网卡恢复

Ubuntu 22.04 有一个比较经典的问题，就是安装显卡驱动之后，会导致无线网卡消失，按照正常的流程进行操作之后，运行 sudo ubuntu-drivers autoinstall 并且重启，再次进入默认的系统之后，就会发现网卡消失了。

再次重启，进入 GRUB 之后选择 Advanced options for ubuntu，进去之后可以看到两个 Ubuntu 的版本以及对应的两个 recovery mode。两个版本里面比较新的一个是在安装显卡驱动之后新安装的版本，可以理解为显卡驱动对于较高版本的内核具有依赖，但是配套的无线没有一起安装，记下来两个版本的型号，然后选择较低版本的内核（不是 recovery mode）进入。

进入这一内核之后，可以发现网卡是有的，但是使用 nvidia-smi，并没有正常的那个输出界面，因为这个系统中内核不满足显卡驱动的依赖，那么把这个系统的版本提上去就好了。

使用 sudo dpkg --get-selection | grep linux 可以看到一些信息，其中一些项目包含版本号，有新版本的版本号，以及旧版本的，记下来这些旧版本的，并且使用 sudo apt install 安装使用新版本号覆盖旧版本号的这些内容。本人安装内容如下，作为参考：

sudo apt install linux-headers-6.8.0-40-generic linux-image-6.8.0-40-generic linux-modules-6.8.0-40-generic linux-modules-extra-6.8.0-40-generic

再次重启，正常进入正常的系统，恢复。

需要注意的是，越早设置这些内容，与本文档的对齐程度最高，本人的安装流程为，正常安装系统（将全部硬盘空间都挂在在 / 下）并设置语言为中文，进入系统之后更换语言为英文（因为不然的话输入法的安装比较麻烦），重启，将文件夹变为英文名，再重启，连接网络，sudo apt update 以及 sudo apt upgrade，最后就开始安装显卡驱动 sudo ubuntu-drivers autoinstall 并 reboot 重启。

Ceres 1.14 在 Ubuntu 22.04 的安装

Thu, 19 Dec 2024 00:00:00 GMT

在 Ubuntu 22.04 安装 Ceres 1.14，出现了一些之前在 Ubuntu 20.04 没有出现过的问题，所以在这里记录一下，以及写一下解决的方法。

默认安装

首先先安装一下依赖：

sudo apt install -y libgoogle-glog-dev libgflags-dev libatlas-base-dev libeigen3-dev libsuitesparse-dev libtbb-dev

然后下载 Ceres 库：

wget https://github.com/ceres-solver/ceres-solver/archive/refs/tags/1.14.0.zip
unzip 1.14.0.zip
cd ceres-solver-1.14.0

报错处理

如果直接进行编译会出现两个报错，一个来自于 tbb_stddef.h，另一个则是 gtest。

前者进行：

cd /usr/include/tbb
sudo touch tbb_stddef.h
sudo gedit tbb_stddef.h

输入：

/*
    Copyright (c) 2005-2020 Intel Corporation

    Licensed under the Apache License, Version 2.0 (the "License");
    you may not use this file except in compliance with the License.
    You may obtain a copy of the License at

        http://www.apache.org/licenses/LICENSE-2.0

    Unless required by applicable law or agreed to in writing, software
    distributed under the License is distributed on an "AS IS" BASIS,
    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
    See the License for the specific language governing permissions and
    limitations under the License.
*/

#ifndef __TBB_tbb_stddef_H
#define __TBB_tbb_stddef_H

// Marketing-driven product version
#define TBB_VERSION_MAJOR 2020
#define TBB_VERSION_MINOR 2

// Engineering-focused interface version
#define TBB_INTERFACE_VERSION 11102
#define TBB_INTERFACE_VERSION_MAJOR TBB_INTERFACE_VERSION/1000

// The oldest major interface version still supported
// To be used in SONAME, manifests, etc.
#define TBB_COMPATIBLE_INTERFACE_VERSION 2

#define __TBB_STRING_AUX(x) #x
#define __TBB_STRING(x) __TBB_STRING_AUX(x)

// We do not need defines below for resource processing on windows
#if !defined RC_INVOKED

// Define groups for Doxygen documentation
/**
 * @defgroup algorithms         Algorithms
 * @defgroup containers         Containers
 * @defgroup memory_allocation  Memory Allocation
 * @defgroup synchronization    Synchronization
 * @defgroup timing             Timing
 * @defgroup task_scheduling    Task Scheduling
 */

// Simple text that is displayed on the main page of Doxygen documentation.
/**
 * \mainpage Main Page
 *
 * Click the tabs above for information about the
 * - <a href="./modules.html">Modules</a> (groups of functionality) implemented by the library
 * - <a href="./annotated.html">Classes</a> provided by the library
 * - <a href="./files.html">Files</a> constituting the library.
 * .
 * Please note that significant part of TBB functionality is implemented in the form of
 * template functions, descriptions of which are not accessible on the <a href="./annotated.html">Classes</a>
 * tab. Use <a href="./modules.html">Modules</a> or <a href="./namespacemembers.html">Namespace/Namespace Members</a>
 * tabs to find them.
 *
 * Additional pieces of information can be found here
 * - \subpage concepts
 * .
 */

/** \page concepts TBB concepts

    A concept is a set of requirements to a type, which are necessary and sufficient
    for the type to model a particular behavior or a set of behaviors. Some concepts
    are specific to a particular algorithm (e.g. algorithm body), while other ones
    are common to several algorithms (e.g. range concept).

    All TBB algorithms make use of different classes implementing various concepts.
    Implementation classes are supplied by the user as type arguments of template
    parameters and/or as objects passed as function call arguments. The library
    provides predefined  implementations of some concepts (e.g. several kinds of
    \ref range_req "ranges"), while other ones must always be implemented by the user.

    TBB defines a set of minimal requirements each concept must conform to. Here is
    the list of different concepts hyperlinked to the corresponding requirements specifications:
    - \subpage range_req
    - \subpage parallel_do_body_req
    - \subpage parallel_for_body_req
    - \subpage parallel_reduce_body_req
    - \subpage parallel_scan_body_req
    - \subpage parallel_sort_iter_req
**/

// tbb_config.h should be included the first since it contains macro definitions used in other headers
#include "tbb_config.h"

#if _MSC_VER >=1400
    #define __TBB_EXPORTED_FUNC   __cdecl
    #define __TBB_EXPORTED_METHOD __thiscall
#else
    #define __TBB_EXPORTED_FUNC
    #define __TBB_EXPORTED_METHOD
#endif

#if __INTEL_COMPILER || _MSC_VER
#define __TBB_NOINLINE(decl) __declspec(noinline) decl
#elif __GNUC__
#define __TBB_NOINLINE(decl) decl __attribute__ ((noinline))
#else
#define __TBB_NOINLINE(decl) decl
#endif

#if __TBB_NOEXCEPT_PRESENT
#define __TBB_NOEXCEPT(expression) noexcept(expression)
#else
#define __TBB_NOEXCEPT(expression)
#endif

#include <cstddef>      /* Need size_t and ptrdiff_t */

#if _MSC_VER
    #define __TBB_tbb_windef_H
    #include "internal/_tbb_windef.h"
    #undef __TBB_tbb_windef_H
#endif
#if !defined(_MSC_VER) || _MSC_VER>=1600
    #include <stdint.h>
#endif

//! Type for an assertion handler
typedef void(*assertion_handler_type)( const char* filename, int line, const char* expression, const char * comment );

#if __TBBMALLOC_BUILD
namespace rml { namespace internal {
 #define __TBB_ASSERT_RELEASE(predicate,message) ((predicate)?((void)0) : rml::internal::assertion_failure(__FILE__,__LINE__,#predicate,message))
#else
namespace tbb {
 #define __TBB_ASSERT_RELEASE(predicate,message) ((predicate)?((void)0) : tbb::assertion_failure(__FILE__,__LINE__,#predicate,message))
#endif

    //! Set assertion handler and return previous value of it.
    assertion_handler_type __TBB_EXPORTED_FUNC set_assertion_handler( assertion_handler_type new_handler );

    //! Process an assertion failure.
    /** Normally called from __TBB_ASSERT macro.
        If assertion handler is null, print message for assertion failure and abort.
        Otherwise call the assertion handler. */
    void __TBB_EXPORTED_FUNC assertion_failure( const char* filename, int line, const char* expression, const char* comment );

#if __TBBMALLOC_BUILD
}}  // namespace rml::internal
#else
} // namespace tbb
#endif

#if TBB_USE_ASSERT

    //! Assert that predicate is true.
    /** If predicate is false, print assertion failure message.
        If the comment argument is not NULL, it is printed as part of the failure message.
        The comment argument has no other effect. */
    #define __TBB_ASSERT(predicate,message) __TBB_ASSERT_RELEASE(predicate,message)

    #define __TBB_ASSERT_EX __TBB_ASSERT

#else /* !TBB_USE_ASSERT */

    //! No-op version of __TBB_ASSERT.
    #define __TBB_ASSERT(predicate,comment) ((void)0)
    //! "Extended" version is useful to suppress warnings if a variable is only used with an assert
    #define __TBB_ASSERT_EX(predicate,comment) ((void)(1 && (predicate)))

#endif /* !TBB_USE_ASSERT */

//! The namespace tbb contains all components of the library.
namespace tbb {

    namespace internal {
#if _MSC_VER && _MSC_VER<1600
        typedef __int8 int8_t;
        typedef __int16 int16_t;
        typedef __int32 int32_t;
        typedef __int64 int64_t;
        typedef unsigned __int8 uint8_t;
        typedef unsigned __int16 uint16_t;
        typedef unsigned __int32 uint32_t;
        typedef unsigned __int64 uint64_t;
#else /* Posix */
        using ::int8_t;
        using ::int16_t;
        using ::int32_t;
        using ::int64_t;
        using ::uint8_t;
        using ::uint16_t;
        using ::uint32_t;
        using ::uint64_t;
#endif /* Posix */
    } // namespace internal

    using std::size_t;
    using std::ptrdiff_t;

//! The function returns the interface version of the TBB shared library being used.
/**
 * The version it returns is determined at runtime, not at compile/link time.
 * So it can be different than the value of TBB_INTERFACE_VERSION obtained at compile time.
 */
extern "C" int __TBB_EXPORTED_FUNC TBB_runtime_interface_version();

/**
 * @cond INTERNAL
 * @brief Identifiers declared inside namespace internal should never be used directly by client code.
 */
namespace internal {

//! Compile-time constant that is upper bound on cache line/sector size.
/** It should be used only in situations where having a compile-time upper
    bound is more useful than a run-time exact answer.
    @ingroup memory_allocation */
const size_t NFS_MaxLineSize = 128;

/** Label for data that may be accessed from different threads, and that may eventually become wrapped
    in a formal atomic type.

    Note that no problems have yet been observed relating to the definition currently being empty,
    even if at least "volatile" would seem to be in order to avoid data sometimes temporarily hiding
    in a register (although "volatile" as a "poor man's atomic" lacks several other features of a proper
    atomic, some of which are now provided instead through specialized functions).

    Note that usage is intentionally compatible with a definition as qualifier "volatile",
    both as a way to have the compiler help enforce use of the label and to quickly rule out
    one potential issue.

    Note however that, with some architecture/compiler combinations, e.g. on IA-64 architecture, "volatile"
    also has non-portable memory semantics that are needlessly expensive for "relaxed" operations.

    Note that this must only be applied to data that will not change bit patterns when cast to/from
    an integral type of the same length; tbb::atomic must be used instead for, e.g., floating-point types.

    TODO: apply wherever relevant **/
#define __TBB_atomic // intentionally empty, see above

#if __TBB_OVERRIDE_PRESENT
#define __TBB_override override
#else
#define __TBB_override // formal comment only
#endif

#if __TBB_CPP17_FALLTHROUGH_PRESENT
#define __TBB_fallthrough [[fallthrough]]
#elif __TBB_FALLTHROUGH_PRESENT
#define __TBB_fallthrough __attribute__ ((fallthrough))
#else
#define __TBB_fallthrough
#endif

template<class T, size_t S, size_t R>
struct padded_base : T {
    char pad[S - R];
};
template<class T, size_t S> struct padded_base<T, S, 0> : T {};

//! Pads type T to fill out to a multiple of cache line size.
template<class T, size_t S = NFS_MaxLineSize>
struct padded : padded_base<T, S, sizeof(T) % S> {};

//! Extended variant of the standard offsetof macro
/** The standard offsetof macro is not sufficient for TBB as it can be used for
    POD-types only. The constant 0x1000 (not NULL) is necessary to appease GCC. **/
#define __TBB_offsetof(class_name, member_name) \
    ((ptrdiff_t)&(reinterpret_cast<class_name*>(0x1000)->member_name) - 0x1000)

//! Returns address of the object containing a member with the given name and address
#define __TBB_get_object_ref(class_name, member_name, member_addr) \
    (*reinterpret_cast<class_name*>((char*)member_addr - __TBB_offsetof(class_name, member_name)))

//! Throws std::runtime_error with what() returning error_code description prefixed with aux_info
void __TBB_EXPORTED_FUNC handle_perror( int error_code, const char* aux_info );

#if TBB_USE_EXCEPTIONS
    #define __TBB_TRY try
    #define __TBB_CATCH(e) catch(e)
    #define __TBB_THROW(e) throw e
    #define __TBB_RETHROW() throw
#else /* !TBB_USE_EXCEPTIONS */
    inline bool __TBB_false() { return false; }
    #define __TBB_TRY
    #define __TBB_CATCH(e) if ( tbb::internal::__TBB_false() )
    #define __TBB_THROW(e) tbb::internal::suppress_unused_warning(e)
    #define __TBB_RETHROW() ((void)0)
#endif /* !TBB_USE_EXCEPTIONS */

//! Report a runtime warning.
void __TBB_EXPORTED_FUNC runtime_warning( const char* format, ... );

#if TBB_USE_ASSERT
static void* const poisoned_ptr = reinterpret_cast<void*>(-1);

//! Set p to invalid pointer value.
//  Also works for regular (non-__TBB_atomic) pointers.
template<typename T>
inline void poison_pointer( T* __TBB_atomic & p ) { p = reinterpret_cast<T*>(poisoned_ptr); }

/** Expected to be used in assertions only, thus no empty form is defined. **/
template<typename T>
inline bool is_poisoned( T* p ) { return p == reinterpret_cast<T*>(poisoned_ptr); }
#else
template<typename T>
inline void poison_pointer( T* __TBB_atomic & ) {/*do nothing*/}
#endif /* !TBB_USE_ASSERT */

//! Cast between unrelated pointer types.
/** This method should be used sparingly as a last resort for dealing with
    situations that inherently break strict ISO C++ aliasing rules. */
// T is a pointer type because it will be explicitly provided by the programmer as a template argument;
// U is a referent type to enable the compiler to check that "ptr" is a pointer, deducing U in the process.
template<typename T, typename U>
inline T punned_cast( U* ptr ) {
    uintptr_t x = reinterpret_cast<uintptr_t>(ptr);
    return reinterpret_cast<T>(x);
}

#if __TBB_DEFAULTED_AND_DELETED_FUNC_PRESENT

//! Base class for types that should not be assigned.
class no_assign {
public:
    void operator=( const no_assign& ) = delete;
    no_assign( const no_assign& ) = default;
    no_assign() = default;
};

//! Base class for types that should not be copied or assigned.
class no_copy: no_assign {
public:
    no_copy( const no_copy& ) = delete;
    no_copy() = default;
};

#else /*__TBB_DEFAULTED_AND_DELETED_FUNC_PRESENT*/

//! Base class for types that should not be assigned.
class no_assign {
    // Deny assignment
    void operator=( const no_assign& );
public:
#if __GNUC__
    //! Explicitly define default construction, because otherwise gcc issues gratuitous warning.
    no_assign() {}
#endif /* __GNUC__ */
};

//! Base class for types that should not be copied or assigned.
class no_copy: no_assign {
    //! Deny copy construction
    no_copy( const no_copy& );
public:
    //! Allow default construction
    no_copy() {}
};

#endif /*__TBB_DEFAULTED_AND_DELETED_FUNC_PRESENT*/

#if TBB_DEPRECATED_MUTEX_COPYING
class mutex_copy_deprecated_and_disabled {};
#else
// By default various implementations of mutexes are not copy constructible
// and not copy assignable.
class mutex_copy_deprecated_and_disabled : no_copy {};
#endif

//! A function to check if passed in pointer is aligned on a specific border
template<typename T>
inline bool is_aligned(T* pointer, uintptr_t alignment) {
    return 0==((uintptr_t)pointer & (alignment-1));
}

//! A function to check if passed integer is a power of 2
template<typename integer_type>
inline bool is_power_of_two(integer_type arg) {
    return arg && (0 == (arg & (arg - 1)));
}

//! A function to compute arg modulo divisor where divisor is a power of 2.
template<typename argument_integer_type, typename divisor_integer_type>
inline argument_integer_type modulo_power_of_two(argument_integer_type arg, divisor_integer_type divisor) {
    __TBB_ASSERT( is_power_of_two(divisor), "Divisor should be a power of two" );
    return (arg & (divisor - 1));
}


//! A function to determine if arg is a power of 2 at least as big as another power of 2.
// i.e. for strictly positive i and j, with j being a power of 2,
// determines whether i==j<<k for some nonnegative k (so i==j yields true).
template<typename argument_integer_type, typename power2_integer_type>
inline bool is_power_of_two_at_least(argument_integer_type arg, power2_integer_type power2) {
    __TBB_ASSERT( is_power_of_two(power2), "Divisor should be a power of two" );
    return 0 == (arg & (arg - power2));
}

//! Utility template function to prevent "unused" warnings by various compilers.
template<typename T1> void suppress_unused_warning( const T1& ) {}
template<typename T1, typename T2> void suppress_unused_warning( const T1&, const T2& ) {}
template<typename T1, typename T2, typename T3> void suppress_unused_warning( const T1&, const T2&, const T3& ) {}

// Struct to be used as a version tag for inline functions.
/** Version tag can be necessary to prevent loader on Linux from using the wrong
    symbol in debug builds (when inline functions are compiled as out-of-line). **/
struct version_tag_v3 {};

typedef version_tag_v3 version_tag;

} // internal

//! Dummy type that distinguishes splitting constructor from copy constructor.
/**
 * See description of parallel_for and parallel_reduce for example usages.
 * @ingroup algorithms
 */
class split {
};

//! Type enables transmission of splitting proportion from partitioners to range objects
/**
 * In order to make use of such facility Range objects must implement
 * splitting constructor with this type passed and initialize static
 * constant boolean field 'is_splittable_in_proportion' with the value
 * of 'true'
 */
class proportional_split: internal::no_assign {
public:
    proportional_split(size_t _left = 1, size_t _right = 1) : my_left(_left), my_right(_right) { }

    size_t left() const { return my_left; }
    size_t right() const { return my_right; }

    // used when range does not support proportional split
    operator split() const { return split(); }

#if __TBB_ENABLE_RANGE_FEEDBACK
    void set_proportion(size_t _left, size_t _right) {
        my_left = _left;
        my_right = _right;
    }
#endif
private:
    size_t my_left, my_right;
};

} // tbb

// Following is a set of classes and functions typically used in compile-time "metaprogramming".
// TODO: move all that to a separate header

#if __TBB_CPP11_SMART_POINTERS_PRESENT
#include <memory> // for unique_ptr
#endif

#if __TBB_CPP11_RVALUE_REF_PRESENT || __TBB_CPP11_DECLTYPE_PRESENT || _LIBCPP_VERSION
#include <utility> // for std::move, std::forward, std::declval
#endif

namespace tbb {
namespace internal {

#if __TBB_CPP11_SMART_POINTERS_PRESENT && __TBB_CPP11_RVALUE_REF_PRESENT && __TBB_CPP11_VARIADIC_TEMPLATES_PRESENT
    template<typename T, typename... Args>
    std::unique_ptr<T> make_unique(Args&&... args) {
        return std::unique_ptr<T>(new T(std::forward<Args>(args)...));
    }
#endif

//! Class for determining type of std::allocator<T>::value_type.
template<typename T>
struct allocator_type {
    typedef T value_type;
};

#if _MSC_VER
//! Microsoft std::allocator has non-standard extension that strips const from a type.
template<typename T>
struct allocator_type<const T> {
    typedef T value_type;
};
#endif

// Ad-hoc implementation of true_type & false_type
// Intended strictly for internal use! For public APIs (traits etc), use C++11 analogues.
template <bool v>
struct bool_constant {
    static /*constexpr*/ const bool value = v;
};
typedef bool_constant<true> true_type;
typedef bool_constant<false> false_type;

//! A template to select either 32-bit or 64-bit constant as compile time, depending on machine word size.
template <unsigned u, unsigned long long ull >
struct select_size_t_constant {
    //Explicit cast is needed to avoid compiler warnings about possible truncation.
    //The value of the right size,   which is selected by ?:, is anyway not truncated or promoted.
    static const size_t value = (size_t)((sizeof(size_t)==sizeof(u)) ? u : ull);
};

#if __TBB_CPP11_RVALUE_REF_PRESENT
using std::move;
using std::forward;
#elif defined(_LIBCPP_NAMESPACE)
// libc++ defines "pre-C++11 move and forward" similarly to ours; use it to avoid name conflicts in some cases.
using std::_LIBCPP_NAMESPACE::move;
using std::_LIBCPP_NAMESPACE::forward;
#else
// It is assumed that cv qualifiers, if any, are part of the deduced type.
template <typename T>
T& move( T& x ) { return x; }
template <typename T>
T& forward( T& x ) { return x; }
#endif /* __TBB_CPP11_RVALUE_REF_PRESENT */

// Helper macros to simplify writing templates working with both C++03 and C++11.
#if __TBB_CPP11_RVALUE_REF_PRESENT
#define  __TBB_FORWARDING_REF(A) A&&
#else
// It is assumed that cv qualifiers, if any, are part of a deduced type.
// Thus this macro should not be used in public interfaces.
#define  __TBB_FORWARDING_REF(A) A&
#endif
#if __TBB_CPP11_VARIADIC_TEMPLATES_PRESENT
#define __TBB_PARAMETER_PACK ...
#define __TBB_PACK_EXPANSION(A) A...
#else
#define __TBB_PARAMETER_PACK
#define __TBB_PACK_EXPANSION(A) A
#endif /* __TBB_CPP11_VARIADIC_TEMPLATES_PRESENT */

#if __TBB_CPP11_DECLTYPE_PRESENT
#if __TBB_CPP11_DECLVAL_BROKEN
// Ad-hoc implementation of std::declval
template <class T> __TBB_FORWARDING_REF(T) declval() /*noexcept*/;
#else
using std::declval;
#endif
#endif

template <bool condition>
struct STATIC_ASSERTION_FAILED;

template <>
struct STATIC_ASSERTION_FAILED<false> { enum {value=1};};

template<>
struct STATIC_ASSERTION_FAILED<true>; //intentionally left undefined to cause compile time error

//! @endcond
}} // namespace tbb::internal

#if __TBB_STATIC_ASSERT_PRESENT
#define __TBB_STATIC_ASSERT(condition,msg) static_assert(condition,msg)
#else
//please note condition is intentionally inverted to get a bit more understandable error msg
#define __TBB_STATIC_ASSERT_IMPL1(condition,msg,line)       \
    enum {static_assert_on_line_##line = tbb::internal::STATIC_ASSERTION_FAILED<!(condition)>::value}

#define __TBB_STATIC_ASSERT_IMPL(condition,msg,line) __TBB_STATIC_ASSERT_IMPL1(condition,msg,line)
//! Verify condition, at compile time
#define __TBB_STATIC_ASSERT(condition,msg) __TBB_STATIC_ASSERT_IMPL(condition,msg,__LINE__)
#endif

#endif /* RC_INVOKED */
#endif /* __TBB_tbb_stddef_H */

后者则需要在 CMakeList.txt 中取消 Test：

# Enable the use of Eigen as a sparse linear algebra library for
# solving the nonlinear least squares problems.
option(EIGENSPARSE "Enable Eigen as a sparse linear algebra library." ON)
option(EXPORT_BUILD_DIR
  "Export build directory using CMake (enables external use without install)." OFF)
option(BUILD_TESTING "Enable tests" ON)  // [!code --]
option(BUILD_TESTING "Enable tests" OFF)  // [!code ++]
option(BUILD_DOCUMENTATION "Build User's Guide (html)" OFF)
option(BUILD_EXAMPLES "Build examples" ON)
cmake_dependent_option(
  BUILD_BENCHMARKS "Build Ceres benchmarking suite" ON "CXX11" OFF)
option(BUILD_SHARED_LIBS "Build Ceres as a shared library." OFF)

之后进行正常的 CMake 编译安装即可：

mkdir build
cd build
cmake ..
make -j8
sudo make install

周记 Week24

Mon, 16 Dec 2024 00:00:00 GMT

可以说这一周是我度过的最折磨的一周了，往前追溯，可能要到九月份的时候，那时候需要三线程打工，这一周需要做的事情虽然基本上是单线程，但是可以说是有过之无不及。

考试

具体来说，这一周迎来了本学期最难的两个考试之一，也就是现代控制方法的考试，而我复习的时间只有三天。所以说周日简单的把全书看了一遍，然后周一就开始刷题，把全部题目全都看懂了，之后星期二开始整理知识点，写成 cheatsheet 的形式，这样一方面可以考前再看一遍，一方面也可以加深记忆。按照知识点背了五六遍，然后重新开始作业题，刷了两遍，就急匆匆去考试了。考试感觉下来一般，属于是差不多答出来了，但是能有多少分还是听天由命。

之后星期三上午考完试，下午立刻转去完成一个实验报告，准确的说是 DSP 的实验结果报告。可以说这个是比较离谱的，具体来说，我们处理的是 EEG 信号的分类任务，可以理解为脑电识别，或者说时序信号处理。本身肯定是不难做的，毕竟之前其实处理过其他的东西，包括说从时域去分析音频信号，以及去提取频率特征。本来可以说 EEG 信号处理，按照我的理解来说，就是一个正常的在时域上进行处理，可以说看上去是人畜无害，而且更何况之前已经有了音频的经验。我本身是一个连接主义者，所以也除了老师要求的特征提取的方案之外，也尝试了直接降采样并且进行分类，结果是效果很差。可以说全部的方法在 EEG 信号上都是不奏效的，经过我的一些技巧之后，模型可以在训练的早期快速收敛，但是这是仅仅在训练集上的，而测试集的准确度依然离谱，只有 50% 左右。要注意的是，这是一个二分类的任务，这约等于随机猜测。后来我了解了这个领域，发现了一个很离谱的 setting（毕竟我也有复现很多的论文，这些论文在文章里面汇报的点数高达 99%，但是复现出来的结果不到 50%），那就是他们的训练的 train test split 并不是直接把数据集进行划分，而是把一条数据里面的一部分作为训练集，另一部分作为测试集。可以说是十分的离谱了，我们之前已经有 setting 去把同属于一个人的数据分到训练集和测试集来确保模型对于全部的被试都有一个记忆能力（毕竟据说目前这个领域的结果还是依赖于个人以及时效性），通过这种设置来降低模型泛化的难度。不过尽管如此，这个 setting 依然过于不合理了。按照人来划分 train 和 test 还可以说只是一个 split 的 policy，但是在一条数据里面划分，可以说是完全不合理的。一条数据的前后，他们只把前 3s 的数据作为训练，可以说这 3s 的数据包含的特征一定在之后出现过，那么在之后的分类任务中，可以说完全就是 train 以及 test 是同一个分布了，那还有什么过拟合的难度呢？放回到现实的应用里面，等于说这种脑电的“读心”操作，需要被试先说出来自己刚才的感受，才能判断接下来的感受，那有啥用呢？堪称弱智。这个数据集叫做 DEAP，感觉读者看后可以避雷，而这个数据集作为 EEG 领域最流行的数据集之一，居然还有大量的人去刷，而且乐此不疲，实在是难以让人接受。之后换了一个别的数据集，DEAP 是判断人的心情，而这个新的是通过刺激人的身体来判断被刺激的部位，合理了不少，也成功做出来了。第二天到了 DSP 的展示上面，直接进行了大量的批驳，对于整个的领域。并且还是惊讶地发现，大多数同学都没有去做这个，而是选择了 DSP 的另一个可以选择的课题，也就是说话人识别（以及部分甚至就是直接炒冷饭，选择了孤立字识别，可以理解为说一个数字，然后识别数字（0~9），是之前的任务，加上包装一个 UI，不过可以说这个东西我在 DSP 实验的第一节课，甚至就已经做完了包括 UI 的东西了，一个组的工作量居然如此，实在是令人摸不到头脑）。

在做完了 DSP 之后，接下来紧接着就是 CVPR 的实验（这里的 CVPR 说的是我们的课程，而非那个知名的学术会议）以及现代控制方法的实验，其中 CVPR 可以说还算简单，做目标检测，跑一下模型，然后写一个报告，可以说是非常轻松，按照要求写了一个 HOG+SVM 的复现，以及用 YOLOv8 跑了一下数据，凑了一个看上去十分好看的实验报告。而现代控制方法的实验，可以说是非常离谱，因为老师要求我们用 MATLAB 去写一个控制器以及观测器，然后去控制一个二阶倒立摆，并且需要用 MATLAB 的 Simulink 去写。最后也是在同学的帮助下，借鉴了不少的代码，以及自己又稍微调优了一点点，做了一点点的差异性，然后提交上去了。可以说我对于 MatLab 还是不是很擅长的，至于用 Python 去写这个东西，更是我完全不想去做，所以还是算了吧，差不多得了。

所以读者可以试想，星期三考完试，前几天也一直在通宵，之后星期三晚上通宵写 DSP，写完实验再自己写 PPT，然后星期四早上汇报 DSP，汇报之后简单睡一小会，就去通宵写 CVPR 的实验，写成实验报告第二天交，然后再写 MatLab 的现控实验，这时候已经星期六了。周六的下午又是六级考试，所以说又需要临阵磨枪刷一刷手感，刷了两套题，之后匆匆去考试。在这些事情的间隙中，我还需要兼顾上海那边的事情，甚至不能说是兼顾，可以说是我主要做的事情。

科研

上海那边一方面要改自己的代码，一方面还要和其他的同学来对接，可以说是工作量十分的大，而我这一周关键还生病了，长期的熬夜让我的身体状态十分差，已经是有点不行了，但是还是需要带病继续工作，但是毕竟是科研，我也乐在其中吧。

这就是这周发生的事情，有点离谱，有点劳累，但是日子总还要继续。大量的实验基本上都已经处理掉了，接下来就是复习考试，以及期末考试了。与此同时推进上海这边的进度。希望人没事。

周记 Week23

Sat, 14 Dec 2024 00:00:00 GMT

又是很久之后的一次姗姗来迟的周记，只能说还是很劳累的一个星期，但是确实也没有发生什么其他的大事。

科研

一方面还是在一直修改程序，大概类似于一直在和实验室里的其他同学进行对接，因为我之前阐述了一些比较有价值的程序，而这些程序可以作为模块插入到其他内容里面，但是因为之前的代码写得比较随意，因此还是需要进行很多的整理和修改，并且保持之后的一个灵活性。

学习

其他的事情倒也没有什么了，这一周确确实实过得十分的无聊，基本上就是在写代码以及复习中度过。其实事实上，由于下一周的星期三就需要考试了，而且是十分困难的一门课程，现代控制工程。这时候我就又需要继续抱怨了，我并不是十分的喜欢认可人工智能专业当前的课程，说实话，这些课程除了给我增加压力以及缩减我参加科研的时间之外实在是没有其他的任何作用了。不过不得不说，这门课程老师讲的还是很不错的，可以说数学功底比较深厚，而且看上去这门课程也是很成体系，只是可惜在当下的知识背景下，实在是没有什么用武之地。

这周可以说，又是患上了拖延症，或者说进行科研以及写代码可以让我获得更多的正反馈，所以说迟迟没有开始复习，实际上下周三的考试我直到这周的周日凌晨才开始复习，于是乎也就需要狠狠的压榨时间了，可以预见下一周也不会很轻松，希望生活可以善待我，我之后肯定好好努力。

周记 Week22

Fri, 06 Dec 2024 00:00:00 GMT

可以说这一周是一个全新的开始了。

科研

之前的 CVPR 投稿的这段时间完全过去了，所以说可以花一些时间来沉淀。这周确实已经不存在一个很死的时间线来让我做一些事情，然而压力是存在的。因为在产出了论文之后，事实上领域内的竞争十分激烈，所以说要尽快把自己的代码放出去，至少要先把论文放出去，这使得我们需要先组织一下论文内容，对其一下论文里面之前画的一些饼，哪些是可以实现的，哪些其实实现起来还有一些问题。尽管我们已经把主体功能都完成了，但是周边当时承诺的一些小功能，在后续放出代码的时候也都需要具备。

与此同时，两周之后还有考试，而这几周也有大量的实验需要提交。尽管我们在进行小组合作，但是实际下小组里面能做事情的人，一般来说只有我和我们的年级第一两个人，或者在没有他的组里面，我就需要一个人承担全部。

其实在这一周开始的时候是有打算做一些沉淀的，类似于去准备一些将来的知识储备，以及准备之后的考试。但是事实上十分不幸的是，因为之前的几个星期，改论文导致的身体机能紊乱，尽管我试图在课题组里面保持正常的产能，但是在此之外，我可能就难以很好地进行其他内容了，基本上勉强完成课内的任务就已经是极限。

而且可能现在因为压力比较大的原因，有的时候也会在心理上经常出现难以专注的情况，往往是打算播放一个视频作为背景音来工作，但是却专注看视频去了。又或者是想要克制自己，既然不看视频就不会有这种事情发生，但是却看着电脑屏幕，半天敲不下一行。

生活

抛开生活中这些不顺，和乐小姐两个人的二人世界倒还算幸福，在我比较有压力的时候，可以和她一起出去吃顿饭，然后再获得一个爱的抱抱，不免让我的心灵得到治愈。

现在的科研其实对于我来说是无趣的，因为并不像是一些使用模型的工作，事实上需要维护的程序不算很多，我目前的工作可能实际各个方面都有一些涉及，超过大几千行的代码，现在要进行重头的整理，实在是压力山大，但是又只有我一个人来进行。

记得以前听人说过，玩游戏最开心的时候就是开坑和完结的时候，这句话放在科研上也同样适用，尤其是现在我的时期，明明已经处在完结之后了，但是还有大量的收尾工作需要进行，这可能意味着很多的代码量，需要通宵，并且很难进行成果的量化。这样的重复工作实在是令我兴奋不起来，但是随着大家的更多的对于仿真平台的讨论，或许将来还是有希望将这些他们讨论的精髓融入到我的工作里面，在后面将这个工作变成一个我使用起来十分得心应手的工具，并且具备大量的功能。

顺便一提的是，之前在十月份申请的奖学金也终于发下来了，确实是因为体育成绩不好，所以说一直不能拿到国家奖学金，但是学院提供的这个奖学金也是很不错的，也是一度让我的存款又一次变多了。事实上现在发现了一个奇怪的处境，这也是之前我多次预言，但是认识我的人都不太相信的一个情况，就是现在确实我已经失去了消费的欲望，没有什么想要买的东西了。

之前可能需要一个好用的鼠标，或者说键盘显示器，以及耳机和方便我在课上使用的轻薄本电脑，这些都花了很多钱，也给了很多认识我的朋友一种我花钱大手大脚的感觉。虽然确实比较大手大脚，可能会买下来一些不是特别特别有用的东西，但是我买的大多数东西还是具备一定使用刚需的，而现在这种具备刚需的消费已经不存在了，所以现在的开销基本上也就只剩下每天的吃饭，再没有其他事情。

总的来说，这个星期依然是正常的一个星期，平平无奇，伴随着身体有一些不适，以及依然满功率负荷的工作。这种处境或许我有必要改变，按照之前记录周记的想法来说，我一直打算的是可以通过周记发现自己相较于上一周具备哪些明显的提升，但是伴随着期末的临近以及各种事情的变多，每周好像都和上一周相同。不过目前的压力确实很大，其实有的时候也会在半夜因为太累而失声哭泣，我倒也不打算再逼自己一把，还是尽量要在假期的时候把状态调整回每天都可以进步的情况，在每天写代码的同时，也需要注意适当的跑步健身，论文阅读，以及学习其他的技术知识。

GPT 转发站使用与收集

Sun, 24 Nov 2024 00:00:00 GMT

写这篇内容没有别的原因，单纯就是因为，很多人问我关于 GPT 相关的内容，包括说各种如何使用，各种充值相关的，但是实际上虽然说在 OpenAI 的官方去使用确实一些功能强大不少，但是实际上，很多人还是不太会用，且充值也需要大费周章。而转发站没有门槛，可以使用国内的网络链接，所以说在这里记录一下。相同的内容我有放在我之前给 RoboMaster 社团写的内容里面，即 [RMV001|使用 GPT 转发站]。

为什么要使用 GPT 转发站

使用 GPT 转发站出于一个十分简单的初衷，即，GPT 本身需要具备代理才可以正常访问，这本身对于一些环境或者对于一些初学者来说就已经十分的不友好，而同时，假如说想要使用 GPT 的高级功能，比如说 GPT-4 或者 GPT-4o，更是需要充值成为 GPT 的会员，这意味着你需要 VISA 卡并且容忍高额的开销。

然而一个事实是，一般来说你并没有机会用到这么多的 GPT，一个月 20 美元的消费完全是多余的，但是 GPT-4o 的使用需求又大概率始终存在，因此此时找到一个可以按量计费的方法并且价格便宜的途径就至关重要了，即使用 GPT 转发站订阅 GPT API。

如何使用 GPT 转发站

首先你需要注册一个 GPT 转发站的账号，一般来说，你只需要一个邮箱即可，然后你就可以在 GPT 转发站上进行充值并且创建一个令牌。这个令牌就是你用来访问 GPT API 的凭证，你可以在 GPT 转发站上看到你的令牌，并且可以在 GPT 转发站上看到你的使用情况。

由于目前市面上大多数的转发站使用的都是 New API 这个开源平台进行创建的，因此长得都十分的相似，在这里随便举一个例子，注册账号之后进行充值：

然后点击侧边栏的令牌，可以创建一个令牌，比如正常来说，选择永不过期以及无限额度即可，然后保证自己的令牌不要泄露：

复制你的令牌，并浏览网站找到你的转发站的接口地址，此时你就已经可以使用 GPT API 了。

NextChat

NextChat 是一个开源项目，可以直接在 NextChat 中使用 GPT API，并且 NextChat 提供了非常友好的界面，使得你可以方便的使用设置 Prompt，修改聊天内容并且支持历史消息（这些功能，当然，你使用 Python 进行 request 同样可以实现，但是过于过于过于复杂）。

前往其 Github 的 Release 中找到 -setup.exe 结尾的 Windows 安装包，值得一提的是，这一软件同样可以在 Ubuntu 使用，使用 .deb 的安装包即可，然后正常进行安装。

安装之后，可以在设置界面，设置接口地址以及令牌即可：

然后就可以正常使用了，尝试说一句话试试。

GPT 转发站收集

这些 GPT 转发站都是我随手收集来的，假如有站主或者其他同学有其他的转发站想要推荐或者推广，也可以在下面留言，我会进行更新，本身不支持充值，按照价格以及站名字典序排序。本人只是进行信息收集，大家在充值的过程中需要小心转发站跑路的可能性，本人已经进行了警告，不负任何责任。以下格式为，[网址，汇率（美元 : 人民币）]。

| 网址 | 汇率 | | --- | --- | | https://api.kksj.org/ | 1 : 0.9 | | https://api.gptai.cc/ | 1 : 1.5 | | https://api.nekoapi.com/ | 1 : 1.5 | | https://gpt.0kk.top/ | 1 : 1.5 | | https://api.oneabc.org/ | 1 : 2.1 | | https://aigcbest.top/ | 1 : 3 | | https://aium.cc/ | 1 : 3.5 | | https://sg.uiuiapi.com/ | 1 : 3.37 |

周记 Week21

Thu, 21 Nov 2024 00:00:00 GMT

可以说这一次的周记终于来得及在周中进行记录了，而不是拖延到这一周结束之后才开始姗姗来迟的记录。仔细回顾一下之前周记拖延的原因，主要还是因为 CVPR 的原因，以及随着经常的下雨以及天气转寒，我通常习惯的一边散步一边语音输入来记周记的习惯都泡汤了，所以说实在是没办法忙里偷闲，来记录这一段时间发生的事情。

科研

不过好在现在 CVPR 已经是结束了，也就剩出来了一点点的时间来做其他事情。虽然说，事实上 CVPR 的这个工作，有着更多的可行性以及空间，很可能在接下来的一个月的时间内依然会是我主要的工作内容，然而，显然的是，这些时间的消耗只能让工作变得更加 solid，而不能带来更进一步的产出。

这究竟对于我来说是不是一个好消息呢？我说不准。假如说上海那边确实最后可以要我的话，那么这显然是不错的结果，我可以踏踏实实在这边做出一个具有一定影响力以及对于全局也有贡献度的工作，但是假如说将来被驱逐出去了，那么这篇工作对于其他学校来说，可能因为不需要类似的技术栈，所以说反而不需要我这样的人。

我认识的其他的正在科研的同学大多数都在进行 learning based 的模型研究，无论是多模态还是具身智能，但是讲实话，在现在这个阶段中，我实在是无法体会到 learning based 的魅力所在。具身领域中的数据缺乏，使得 learning based 方法实在无法获得长足的进展，而大多数的工作虽然说找到了新颖的角度，但是解决问题的手段依然是增加一个 encoder 或者一些其他的模块来进行处理，给出一些形而上学的公式解释，但是这些公式大多数并没有实际的价值，模型的性能提升也是主要因为表征经过 designed 之后可以带来更具指向性的信息。我并不排除一些内容是有价值的，但是在当下的情况下，学界在具身领域暂时只能在 scaling up 以及 RL Based 里面多下功夫了。至于多模态，这段时间终于空闲下来了，可以找时间读一读论文，改天再来锐评。

学习

总的来说，这个星期依然没有什么好说的，因为这周又是两周一度的有作业的一周，所以说在熬夜的过程中还需要兼顾写作业，可以说是十分的折磨了，不过好在一切在我顽强的努力之下都赶上了。可以说最后两天又是经典的熬夜，虽然说我习惯于昼夜颠倒，但是这明显和熬夜还是不一样的，连续二十多个小时不睡觉，确实会让人的神智变得不清醒，而且头疼欲裂，假如还有下一次，一定不要做的这么极限了。值得一提的是，这次 CVPR 的正文和 sup 都是几乎 15:59 卡点提交的，可以说实在是有点极限了，令人忍俊不禁。

这周是一个短暂的逗号，之后还有不少的事情需要做，无论是复习，还是继续科研，以及也需要 work paper balance 一下，拿出来一些时间来读论文，从长计议吧。

周记 Week20

Mon, 18 Nov 2024 00:00:00 GMT

上一周的周记，事实上写的时候这一周也已经过完了，所以有点故意卖关子的意思，事实上，CVPR 还是赶上了。

科研

在这一周里面的科研可以说是按照小时来计算时间的，基本上不允许任何一个小时出现错误，然而到了最后模型的训练还是出了差错，还好这篇工作不是主打的这个，所以暂时避重就轻地掠过了。除此之外可以说是惊心动魄，直到截止的最后一个小时，我们还在疯狂地写，以及检查一些问题，并且在截止前十分钟将第一版提了上去。然后就是进行了一些缝缝补补，又是一些别的修改，提交了别的版本。

因为论文还没有发表，所以这些内容也不能说太多，那些在这里面吃的苦受的累，也许等将来论文发表了，至少是挂出去了，我会写一个回忆篇，回忆从开始接触这个到现在走过的路。

在这个过程中，其实令我很触动的一件事情是，在最后的两天时间里面，mentor 找来了很多人来帮我，可以说是萍水相逢拔刀相助（事实上也不能这么说，毕竟在上海的时候，大家经常一起吃饭，也算是聊得来，虽然是上下级关系，但是氛围还是很扁平化的。不过确实对于这个课题来说，对他们确实是打扰，毕竟本来与他们无关），大家分别给论文写一些内容，然后修改语法以及提出建议，把故事理得更顺一些，都是付出了很多的精力。有一种类似的说法或者感觉，毕竟虽然大家关系很扁平，但是实际上好多都是百引或者千引的大佬，说得上一句，我何德何能，能够有此殊荣了。只能说这件事情的发生，更加坚定了我将来想去这边的想法，大家对我确实不薄，而且我也很喜欢那边，自然不能辜负。

说起来也是单打独斗习惯了，无论是之前的工作，还是这个课题的前半段时间，大多数时候除了老师的讨论之外，都是一个个人在默默地写代码以及做其他事情，可以说是孤军奋战，然而而到了后面越来越多的人来帮助我，最后才让这个课题得以写成论文，颇有一种点点星光汇聚成耀眼的太阳那种感觉，也着实是温暖了我。

生活

除此之外也没有别的值得分享的了，或记录一下我和乐小姐的日常生活。周六深夜十一点多，她那边晚上考完试，然后和我说有点饿了，我向来就是一个行动派，就要带她去吃海底捞。结果到地方发现她把她的兔熊（一个毛绒玩具，是我送给她的，属于 Lolita 的搭配，六七百块钱）丢在了车上，然后伤心了好久。好在和司机打了电话，最后把东西送回来了，不过也从本来的吃海底捞改变成了去吃火炉旁烤肉。不过我们的印象确实没有错，这烤肉确实有一些柴，和之前的焰请旗鼓相当，也不知道是为什么，完全比不上齐齐哈尔烤肉（而且我确信这不是因为齐齐哈尔烤肉增加了添加剂，因为之前回齐齐哈尔的时候，家里人做的也是这样的嫩）。

另外一件或许可以说一下的是，之前某一天晚上起夜有感，发现目前的算是睡衣的上衣还是十分可爱的，但是下装只能穿外裤。于是我自己比划了一下，购买了功能约等于睡裤+出去时候的安全裤的喇叭短裤，感觉十分可爱。

就先这样吧，也算是追平了目前的时间，希望一切顺利，之后有越来越多的事情要做了。六级，课内考试，以及 CVPR 的附录，加上和女朋友打一些水赛，这都是时间开销，而我只是想懒惰地岁月静好。

周记 Week19

Sun, 17 Nov 2024 00:00:00 GMT

尽管说起来上一次，说的是记完上一次之后就很快要记这一周，然而因为各种各样的事情还是耽搁了，事实上确实是科研的压力太大了，而且还伴随着其他的琐事。

科研

现在距离 CVPR 也就剩下的寥寥无几的不到两周时间，科研压力也越来越大。一方面要做数据生成，这是我的科研内容的一部分，随着时间的推移，后面应该也可以慢慢更多的透露我在做什么，当然，等到工作发表之后，我会完整讲一讲。另一方面又有其他的很多工程内容需要去实现。要是满打满算来看，实际上这次科研我足足准备了三个月时间，不过从现在来看，还是有点太勉强了。主要的一个多月时间，我都在熟悉这个框架，剩下的时间有课内的压力，而且我所在的框架的生态并不友好。大量的内容，要是文档里有都已经谢天谢地了，有可能你需要的一些功能或者遇到的问题，都只能在论坛里面寻找答案，甚至要自己去看源代码，这毫无疑问极大的降低了我的开发效率。

而且和那位大四的同学一起合作的过程中，另外一件事情，当然也是之前感慨过的，就是一些套路化的代码积累真的很重要。目前基本上每一个功能我都是手动实现的，这毫无疑问给我带来了巨大的负担，把大量的时间浪费家的不必要的地方。

北理工学术会议

这一周还值得一提的事情是，受到了辅导员的邀请，我去北京理工大学参加了一次学术会议。与其说是学术会议，其实就是北京理工大学那边的荣誉学院，和几个兄弟院校的荣誉学院（包括我们西安交通大学），邀请我们几个学院出一个人，和他们的一些人一起分享一下自己的科研成果。

讲实话，我并不是很喜欢之前的工作，当然这并不是说我会把它看作是黑历史，实际上这篇工作相当不错，也在中稿之后给我带来了巨大的持续收益，不过相较于现在的我更加喜欢大规模的工作或者那些能够指向问题本质的工作来说，显然之前的这一篇实在是太儿戏了。

因为要去参加这个会议，所以我又特意制作了 PPT，现在这一套成熟的 PPT 是根据之前去上海那边面试的 PPT 修改改过来的，经过了这几次迭代，想必将来也就可以在其他人再邀请我的时候，不需要耗费更多的精力。

现在我非常看重积累这件事情，然而这不是一个可以分享的经验之谈，因为对于新手来说，即使他们知道也无从积累，而对于老手来说，在体验了几次更加熟练的人依靠积累建立的优势之后，也就自然而然会出现这种想法了。

无论是学习资料，还是自己的一些经验分享总结，或者其他的一些东西，比如说水赛的课题，在我某一次耗费了大量的精力，将这个东西实现之后，我希望他可以持续地为我创造价值，而不是一次短暂的瞬时收益。

这个看法，其实我觉得在当下尤其重要。事实上一名老练的科研工作者，相较于那些新手来说，本质的学术水平的差距已经不再是那么明显了。不同于数学存在大量需要彻底理解的公式，很多深度学习方面的见解都是浮于表面的，只要有一名尽职尽责的学长带路，不到一个月，这个人就可以醍醐灌顶。所以真正区分不同人的价值的区分点在哪里呢？关键就在于工作的效率。

有的人只能主导一个课题，而有的人可以在主导自己课题的同时，为别人的课题提供数据，跑一些实验，以及写论文和画图，从而成为了二三四五作。当然这种看法并不是说，想要大量地添加无数的没有意义的论文到自己的名下，或者出于合作关系的挂名，而是确确实实出了一份力在有价值的课题里。

每一个人的时间都是相同的，假如我们都同样聪明，也都同样努力，那么是什么让我们分出了三六九等，答案是效率，而为什么我能够在一段时间内做出更多的事情？是积累。

这种积累体现在两个方面。一方面是知识的积累，比方说对于现在的我，我已经可以比较熟练的部署各种模型，我熟悉我的仿真平台，我熟悉调用 GPT，然而我不熟悉真机的使用，不熟悉模型训练以及集群使用，也就让我需要在这些任务上花费更多的时间（事实上这一点也是之后，我打算进行自我积累的），对于其他人来说，他们已经掌握，就不会像我一样花很多时间在处理简单的报错上面。另一方面就是代码的积累，可能我采集数据有一种自己的格式，而不同的模型有不同模型的格式，我对于某一个模型的格式写了一套转换的代码，而且我也熟悉了这个模型的训练流程，我就可以毫无压力的进行这个模型的丝滑训练。假如恰好别人需要这个模型，那么他把数据给我，数据格式转换以及模型运行的一体化代码，就可以快速地完成他的需求，从而成为合作者。

这大概也是我最近的一些感受，也算是一些分享了，不过最近确实感觉，CVPR 貌似有点来不及了，我也不知道如何才能赶得上，但是还是尽到自己最后一次努力吧。

周记 Week17

Tue, 05 Nov 2024 00:00:00 GMT

老实说这周其实过得没什么波澜，就是正常的学习、熬夜以及生活。CVPR 其实已经在尽力地赶了，但是实际上还是收效甚微。现在的事情实在是太多了，有很多事情要做，也有很多人给了我很多期待，以及一些别的，更多更多的压力。现在在上海这边科研，可以说已经基本进入了平稳期了。可以预见的是，这个课题应该在 CVPR 之后还会继续持续一段时间，来达到一个比较理想的可以建立有影响力工作的一个程度。

轻薄本

一件值得记录的事情就该是因为之前一直觉得在课上只能睡觉（因为需要有一定量的时间来办公，要不然晚上熬夜办公白天睡觉，要不然白天办公，但是白天没电脑）实在是太过于浪费时间了，而且按理来说我的白天时间应该还是精力比较充沛的，结果还是因为必须熬夜办公，所以白天睡觉。甚至来说，这样做对于身体还是很不好的。因为种种原因，于是我决定自己自费来购买一个轻薄本，可以说把在上海这边实习赚到的钱又花在这边了。购买的是华硕得一个 228V 的 intel lunar lake 的电脑，但是讲实话，无论是续航还是性能确实没有到我的预期，而且价格高达六千多，不过感觉总归是够用的，续航虽然完全到不了想象中的十小时，加上我的充电宝，保持一天的使用倒是确实不是问题，所以一般吧，没有物超所值，但是值得。不过貌似现在来看，lunar lake 似乎还有不少的 bug，看看之后是不是会修复吧。

焰请

除此之外，貌似也没有什么过多的可以记录的内容，无聊的一周，除了和乐小姐在一起的时候可以带来一丝宽慰，其他的貌似就也是平平淡淡地度过了。值得一提的是，和乐小姐一起去吃了海底捞新开的一个烤肉店，叫做焰请，感觉性价比烂的一塌糊涂，而且在吃饭的时候，因为离某个音响比较近，他们又有什么土嗨 DJ 活动，巨大的声音让我的心脏很是不舒服，服务员都在摇摆，也没有人理。可以说没有海底捞的质量，没有海底捞的服务，没有海底捞的性价比，但是继承了土嗨和莫名其妙，不会再来了。至今为止在西安吃过的比较好吃的烤肉还是西交兴庆校区东南门的齐齐哈尔烤肉，但是貌似在今年的五月份过后就关门了，也算是一种遗憾。几十块就可以买到很多肉，可以让我和乐小姐两个人一起爽吃，而且肉质也很新鲜（焰请感觉肉有点柴）。

周记 Week18

Tue, 05 Nov 2024 00:00:00 GMT

所以这其实又是很久没有记周记之后，再一次迟迟才更新的一天。自从上次更新之后，又是隔了两周，然后才开始更新这一周的内容。隔两周显然不能让我很好地想起来这周发生的事情，如此看来今后要注意一下。

总来说，这周还是忙碌的一周，或者换句话说可以说是抽象了。可以说是接连不断的事情不断地催促我熬夜，这一整周下来都没有一天是安宁的。

科研

一方面还是先说科研吧，这周课题里面增加了一位新同学，是一位浙大的大四学生，实力可以说是非常非常非常强，只能说在此之前我的进度都是由我自己一个人把控，而在他加入之后，第一次感受到了被 push 的感觉。且不说程序写的数量，在整体的构思以及论文的方面，包括说作图，可以说水准都是一流的，很快将一个只有表格的贫瘠论文变得比较有像样的模样，在这方面还是功不可没的。

在此之前可以说我一股脑都将心思放在了代码上面，所以说在论文上面当时还没有下很多功夫，现在来看，如果当时没有这位同学的加入，我一个人在去做双线程可以说几乎不可能完成了，甚至直到 CVPR 结束很久，可能都到不了现在的进展。

只能说大四同学确实厉害，相较于我还是懂很多其他的东西，而且也可以说是自己应该之前有很多 codebase 的积累，这就使得一些任务对他来说更加得心应手。这方面确实是我需要吸取的经验，在完成这篇工作之后，我也需要整理一下自己目前有的东西，然后做一个属于自己的完整的 utils 库，免得将来相同的功能还需要重复实现。

总的来说，虽然进度依然很赶，但是可以说多了一丝胜利的曙光，尽管不多，但是也让我这样的飞蛾不禁扑火，去努力做一些成果出来，不愧对自己之前的付出。

不过现在来看我其实对于这篇文章是否会中稿已经没有很多的执着了，尽管大三再有一篇 CVPR 是一个十分风光的事情，然而不得不说的是，我现在可能更加关注于在这个我才加入了的领域里面能否做一些自己有影响力的工作。

尽管这篇的二分之一的立意是 mentor 给出的，但是在长时间讨论以及迭代之后，我认为里面还是表达了一些我自己的观点的，具体来说还是等论文 release 之后再说。而在之后我应该会去做一些更大的团队里面更大型的工作，这方面就自然有一些需要学习的新知识了，我已经找到了我需要学的内容，就差到时候闲下来开始沉淀。

课程安排

另一方面一样有必要吐槽的是学校的课程安排，虽然我可以理解学校设置课程是教书育人的本职工作，然而一个事实是，在当下的这个情况下，大多数课程的内容都不会对目前的科研有任何帮助，而只是在浪费时间。在这里的描述并不是对于老师的教学水平或者课程质量的贬低，而是这确实是一个现象，对于当代的大学生来说，课程除了给他们绩点帮助他们升学之外，可以说没有任何的价值，这些远离实际的实践以及科研一线的内容，除了在试卷上设计出几道弯弯绕绕的题目之外，并不能起到任何的良性作用。

这种现象一直存在，倒也不能令我反感，然而实在是这个学期的作业实在太多，我确实没有时间投入，也就导致出现了周二赶周三的作业，周三赶周四的作业，周四赶周五的作业，这种滑稽的现象。一方面我更对科研有兴趣，并且自认为还是有能力在里面做出一些成果的，然而另一方面令人遗憾的是，在课内的诸多事情太过多的牵扯了我的精力，让我疲于奔命，而心中放不下一张平静的书桌。

这周能够说的大概也就只有这些，一些希望和一些内耗，写到这里，之后有时间要抓紧写下周的周记，这次还是因为特意记下来了这两个话题，才能够顺利地展开讨论，从而水了一些字数，而下一次可就不好说了。

给乐小姐的教程

Mon, 28 Oct 2024 00:00:00 GMT

GPT 使用指南

这部分主要讲一下如何使用转发站来无痛使用 GPT。

安装软件

下载软件 NextChat，网址是 https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web/releases。

在这个界面里面，存在一个选项，以 _x64-setup.exe 结尾，这个是 64 位的安装包，单击下载。下载完成之后双击打开。
可能显示阻止程序启动，点击更多信息，然后点击仍要运行。

正常选择一些信息，比如说安装位置。创建一个桌面快捷方式，并且运行程序

配置 NextChat

NextChat 本质上是一个 GPT 套壳工具，我们可以使用它来调用 GPT 的服务，但是我们需要指定我们的 API Key 以及接口地址。简单理解一下，API Key 就像校园卡一样，接口地址是食堂窗口，每次向接口地址请求 GPT 的服务，就会记账到 API Key 对应的账号上面。

点击设置

向下翻，可以找到接口地址以及 API Key 两项

默认情况下应该为 openai 的网址。

修改接口地址为提供转发服务的服务商接口。
将 API Key 修改为你的转发站的 API Key。
在下方的 Model 中下拉并且找到 GPT-4o

开始聊天

点击新的聊天：

对于跳出的面具显示，选择不再展示，然后确认：

对于全部下方的按钮，只需要在意这个机器人图标，即使用的模型，可以看一下是否是 GPT-4o：

然后正常打字，打个招呼吧~

猫猫是一种可爱的生物！

录播下载

关于如何在 http://class.xjtu.edu.cn 爬取视频。本教程对于电脑小白来说看上去吓人，但是实际上一步一步来就好。

首先点击 F12（关闭这个页面可以点击 x 或者再次点击 F12）并且点击 Network，这可以让我们看到网页的请求信息（本网站的网页播放视频的逻辑是最为基础的，直接请求，也就是进入网页之后，会类似于在下载一样，从服务器中一直下载内容，而播放就是一边下载一边播放）。

点击 Media 可以进行一下筛选，就只会看到目的是视频的请求了，这时候一般会出现四个请求，假如没出现的话，刷新一下课程页面。可以见到一般来说的四个内容，其中后两个（不是 preview 开头的内容）是视频资源。

众所周知录播平台有两个视频源以及两个音频源，其中视频是讲台摄像头视角以及电脑录屏视角，而音频则是一个话筒的麦克风以及一个电脑的麦克风，其中电脑的麦克风一般来说很炸。

假如说希望看 PPT，可以两个都下载，不过还是建议拿到 PPT 课件，配上正常的讲台视角+电脑录屏来使用。

点击某一个视频源，比如说这个 0 开头的，可以看到右侧的 Headers 里面有一项为 Request URL，后面跟着一大堆链接，复制这个链接，然后新建标签页，打开这个链接，会提示视频下载，下载即可。

周记 Week16

Wed, 16 Oct 2024 00:00:00 GMT

只能说是好险好险，差一点点就没有办法保持连载了，也可以说这一段时间确实十分的忙碌，所以说难以有比较多的时间来放在写周记里面，不过至少没有拖满一周，所以说姑且还是算是一节迟到的周记吧。

总的来说，这周和上周其实依然很像，要是说主旋律是什么的话，毫无疑问依然是压力以及科研。

科研

因为安排的问题，所以这篇工作其实打算投稿 CVPR 2025，但是很明显时间并不一定来得及。实际上我的预期是在投稿截止后一周才可以完成这篇工作，但是既然大家都这么要求了，我可能也就需要赶一赶了。这篇工作出于入职时候的保密协议考虑（虽然貌似其实没多少人在意这个），暂时先不在周记中记录，但是等投出去之后会进行一下讨论以及宣传。

RoboMaster

除此之外，感觉可以简单记录一下的，应该也就只剩下 RoboMaster 的培训了。应该说总体来讲，我是比较失望的，今晚很多同学做得比当初我还要好，但是反观培训的针对力度，我认为依然是比较清晰的给出了学习的路线以及应该学什么，再加上现在有 GPT 的辅助，完成这些任务应该并不算难，但事实上效果并不算好。

一个广泛存在的现象是，对于这个非常简单的任务来说，绝大都是同学到了第二周的最后一个周末才开始提交，我的预期实际上是在任务布置后的三天内，Version 1 的任务要求就已经能被大多数同学完成了。因为事实上之前已经经过了培训，完成了能量机关识别的任务。按理来说，识别任何一个物体，或者使用 OpenCV 来手动构建符合这个物体的特征，应该并非一件难事。

因此，一个不假思索的答案就形成在了我的脑海里，那就是大多数同学依然等待了 DDL 的时候才进行了任务的完成。我们需要承认之前一段时间的培训以及任务确实会给同学们带来疲惫和压力，但最后一次任务依然期待这些新组员可以以比较积极的心态去完成。因为事实上反观剩下两个组别的任务，培训不是针对任务的培训，而任务也比这边难得多，但是同学们依然可以很积极的完成。

如此，最后我还是舍弃了自己的名额（事实上下半年我可能也比较难以全力投入其中，因此也是半个隐退），然后拉了七名同学进来，但讲实话，这个结果我也并不是十分满意。

生活

和乐红颖小姐的恋情还在正常发展，有时间就会她来找我或者我去找她，然后两个人在一起独处一段时间。可以说和乐小姐的生活已经成为了漫长时间中我努力的精神支柱了，乐小姐的拥抱也确实可以带给我一种心安。

除此之外，一些计划也要准备开始实施，比如说之前一直想着和大家一起搭建一个 CS-BAYAN-Wiki，我使用 Astro 重构了目前的 Vitepress 页面，这使得组件的开发更加简单，而且本身我目前使用的主题也有很多不错的特性，后续可以安排一下做什么这件事。

总的来说，这周其实主要做的事情还是科研，但是就是在一味地写代码以及推进度，所以说其实没什么好记录的，可能等到 CVPR 之后我会考虑大规模的更新一些自己的博客，我现在积攒了一些我读过的 paper list，但是还没有机会写下来一些看法。敬请期待吧。

周记 Week15

Tue, 15 Oct 2024 00:00:00 GMT

所以说这其实又是很久以后的一次周记，可以说又是迟到了，但是感觉这也是迫不得已的事情。本来想着从意大利回来之后，可能伴随着日子进入正轨，一切都能好过一些，但是事实证明，这一切只是我个人的痴心妄想罢了。事实上，我对于我个人的能力还是有一些自信的，但也不知道是因为什么，事实上，我目前主导的课题确实不是十分顺利。

科研

一方面是因为我觉得这个课题的设定实在是有些太极端了，在数据十分匮乏的情况下，仅仅通过一些筛选就想获得到理想的结果，这件事情确实有很大的难度。而同时也让我比较难以接受的一件事情是，我在科研这一课外事项之外，课内依然给了我很大的压力。在我的大二时光中，事实上课堂中布置的作业并不算很多。而与此同时，这也给了我充分的时间进行自我的发展以及探索。我本来以为这是我们专业的优势，直到来到了大三之后，我基本上每一门主课都要布置漫长的作业，甚至一门计算机视觉的课程，还要布置繁琐的实验报告，动辄要写十页以上。这让我感到压力很大，也让我有些不知所措。

反正因为种种原因，最后这次周记还是迟到了。而且在细想之下，这一周经历的事情除了反反复复的熬夜、通宵以及解决各种各样的问题和承受压力之外，好像也确实没什么可说的了。

趣事

不过，既然已经开启了这一篇章，我觉得还是有必要说一些有意思的事情。

一方面，因为保研季节的结束，绿群的换届也已经准备开始了。其实这件事情并没有什么悬念，无外乎就是我因为在包括 Github 仓库的建设以及前一年的诸多管理的一系列内容的基础上，成功成为了群主。可以说之前绿群的一些机制实际上已经十分成熟了，假如说目前全部的新的管理员们都在积极地参与到群的管理中，那么应该维持基本的功能以及保持去年的水平肯定是没有任何的问题的。

当然，就我个人而言，我还是有一些更多的计划的，因为自己之前搭建过比如说西安交大生存指南在内的一系列的教程网站，所以说，将 CSBAOYAN2025 的网站转变为一个类似具有 CS 保研 Wiki 功能的网站是一个十分值得考虑的事情。当然，这件事情也并不简单，因为网站的维护以及运营的成本都不小，按照之前的经验来说，说不定到了最后还是只有我一个人在孤军奋战。

另一件事则是 RM 这边的面试。讲实话，我本人其实并不反感对于简历进行包装，但是假如将自己完全不了解的内容放到自己的介绍中，这种事情就显得有些过于过分了。起因是 RM 队伍里面说有一个人给我们队伍的指导老师发了邮件（尽管指导老师本身就并不对我们的队伍有任何的指导的作用，而是只是提供一些经费），而且说想要来视觉组。去年就有一位同学使用相同的伎俩发过邮件并且想要进入队伍，并且成功混了进来，但是最后给他安排的任务也没有完成，现在来说结果也就不了了之了。因此讲实话，我对于今年的这人本来就并不抱有任何的希望，加之以走后门的方式来进行面试，自然是要好好拷打一番。

总的来说，对面的同学是计算机大三，说自己会 C++/Python/Java，并且有过计算机视觉的科研经历以及深度学习的经验，因此想来视觉组。众所周知，尽管放眼全国，我可能并不敢过多的说自己的科研水平如何，但是假如说仅仅在西交这一个学校之中，我个人还是很有把握拷打绝大多数同龄人以及比我小一些的同学的。不过尽管已经做好了这家伙会被我拷打到啥也不剩的心理准备，但是这位的简历造假程度还是令我大跌眼镜。不会用 Git/Linux/CMakeList；说自己会深度学习但是连反向传播都不知道，包装了个软著；说有图像处理经历，不知道最基本的概念，成像原理不通，滤波核没听说过；深度学习是不会的，传统的 OpenCV 也是不了解的，实在是令人难以理解。于是最后将这位驳回了面试。

我认为我平时还是一个比较温和的人，尤其是在和大多数人交流的时候，但是在面对这种人的时候，我实在是很难耐下性子来给予他最基本的礼貌，更何况在造假的基础上走后门，而且面试也迟到。

这周大概就是这样，总的来说绿群那边令我十分的开心，同时和乐小姐两个人的二人时光也十分的快乐（我们一起去逛了很多的商场），RM 的面试碰到了抽象人，而最主要的科研，则是依然再艰难但是顽强地推进进度。

EndeavourOS 安装踩坑

Fri, 04 Oct 2024 00:00:00 GMT

前言

按照管理来说，来记录一下踩坑，这次主要是玩了一下 EndeavourOS，并且进行了很多的配置，其中自然也包括一些踩坑。

基础安装

首先，就是进行基本的安装，这其中还是建议进行联网安装。尽管大多数人都在使用 KDE，但是其实按照我个人的审美来说，最新的 GNOME 看起来还是很好看的，有一种高级感，所以说我选了 GNOME，当然这也带来了更多的踩坑。

其中在分盘的时候，我删掉了之前的 Ubuntu 20.04 当时安装的单独的 EFI 以及挂载的 ext4。需要注意的是，读者假如说之前都是只用了一块 EFI，千万别删。我是存在一种习惯，每次安装系统都单独挂载一次。给 EFI 开一个 fat32，挂载 /boot/efi 并且挂一个标签 boot。剩下的都分配上 brtfs 并且挂载到 /，剩下的正常安装就好。

基础依赖安装

值得一提的是，EndeavourOS 不同于别的，基本上就是纯 Arch，所以说内容都可以查 ArchWiki，以及在我的踩坑过程中，很多内容也都参考了 archlinux 简明指南。

sudo pacman -Syu
sudo pacman -S sof-firmware alsa-firmware alsa-ucm-conf # 声 音固件
sudo pacman -S ntfs-3g # 使系统可以识别 NTFS 格式的硬盘
sudo pacman -S adobe-source-han-serif-cn-fonts wqy-zenhei #  安装几个开源中文字体。一般装上文泉驿就能解决大多 wine 应用中文方块的问题
sudo pacman -S noto-fonts noto-fonts-cjk noto-fonts-emoji noto-fonts-extra # 安装谷歌开源字体及表情
sudo pacman -S vim git zsh yay

当然之后也需要按照惯例配置以下 git，在这里就不进行赘述了。

除此之外需要注意的是，正常安装之后，可能会导致找不到之前你安装的其他系统，这个其实就是因为 grub 里面默认关闭了 os-prober，没啥大不了的：

sudo pacman -S os-prober
sudo vim /etc/default/grub

进行修改

# Probing for other operating systems is disabled for security reasons. Read
# documentation on GRUB_DISABLE_OS_PROBER, if still want to enable this
# functionality install os-prober and uncomment to detect and include other
# operating systems.
#GRUB_DISABLE_OS_PROBER=false // [!code --]
GRUB_DISABLE_OS_PROBER=false // [!code ++]
GRUB_EARLY_INITRD_LINUX_STOCK=''

之后重新生成 Grub 即可：

sudo grub-mkconfig -o /boot/grub/grub.cfg

软件安装

正如上述说的，安装了 yay，所以说可以安装一些常用的软件了：

sudo pacman -S code
yay -S nextchat-bin rustdesk-bin linuxqq wechat-uos-qt google-chrome obsidian

介绍一下：

nextchat-bin：一个调用 GPT API 的软件。
rustdesk-bin：私有的远程桌面。
linuxqq：QQ。
wechat-uos-qt：微信。
google-chrome：chrome 浏览器。
obsidian：知识库类型的笔记软件。

一些自己使用的内容

快捷指令

因为缺少了一些基本的配置，GNOME 一上来的使用体验并不是很好，包括说没有悬浮托盘，以及无法使用 Ctrl+Alt+T 打开 Console，以及我在使用 Super+L 的时候的锁屏，直接就黑屏了，没有办法再打开。

进入设置->键盘->键盘快捷键，在系统中禁用锁定屏幕，并且在自定义快捷键中增加命令 kgx 并快捷键 Ctrl+Alt+T，增加命令 systemctl suspend 并快捷键 Super+L，其中名称可以任选。

悬浮托盘

也不知道叫什么比较好，应该是类似于悬浮托盘或者小图标，这在最新的 GNOME 里面并不存在，所以说需要进行安装，基本的思路是安装 GNOME 插件，在里面引导并安装 GNOME Shell 集成，然后安装 gnome-browser-connector：

sudo pacman -S gnome-browser-connector

这时候插件应该就可以 turn on 了，没啥问题，直接开启。

ZSH

我安装了 ZSH，其中涉及我的 .zshrc 的文件，可以进行一个分享：

# Enable Powerlevel10k instant prompt. Should stay close to the top of ~/.zshrc.
# Initialization code that may require console input (password prompts, [y/n]
# confirmations, etc.) must go above this block; everything else may go below.
if [[ -r "${XDG_CACHE_HOME:-$HOME/.cache}/p10k-instant-prompt-${(%):-%n}.zsh" ]]; then
  source "${XDG_CACHE_HOME:-$HOME/.cache}/p10k-instant-prompt-${(%):-%n}.zsh"
fi


### Added by Zinit's installer
if [[ ! -f $HOME/.local/share/zinit/zinit.git/zinit.zsh ]]; then
    print -P "%F{33} %F{220}Installing %F{33}ZDHARMA-CONTINUUM%F{220} Initiative Plugin Manager (%F{33}zdharma-continuum/zinit%F{220})Ã¢Â�Â¦%f"
    command mkdir -p "$HOME/.local/share/zinit" && command chmod g-rwX "$HOME/.local/share/zinit"
    command git clone https://github.com/zdharma-continuum/zinit "$HOME/.local/share/zinit/zinit.git" && \
        print -P "%F{33} %F{34}Installation successful.%f%b" || \
        print -P "%F{160} The clone has failed.%f%b"
fi

source "$HOME/.local/share/zinit/zinit.git/zinit.zsh"
autoload -Uz _zinit
(( ${+_comps} )) && _comps[zinit]=_zinit
### End of Zinit's installer chunk
# zinit
zinit light zsh-users/zsh-autosuggestions
zinit light zdharma/fast-syntax-highlighting
zinit snippet OMZ::lib/clipboard.zsh
zinit snippet OMZ::lib/completion.zsh
zinit snippet OMZ::lib/history.zsh
zinit snippet OMZ::lib/git.zsh
zinit snippet OMZ::lib/theme-and-appearance.zsh
zinit snippet OMZP::sudo/sudo.plugin.zsh
zinit ice depth"1" # git clone depth
zinit light romkatv/powerlevel10k

# To customize prompt, run `p10k configure` or edit ~/.p10k.zsh.
[[ ! -f ~/.p10k.zsh ]] || source ~/.p10k.zsh

直接使用 vim .zshrc 进行写入，然后运行 zsh 即可，但是在此之前需要安装一下 nerd font，在这里我使用的是 FiraCode。

sudo pacman -S ttf-firacode-nerd

adb

因为我有使用 ALAS 进行一个碧蓝航线的挂机，我使用了云手机，并且可以使用 ADB 进行远程打开 UI 界面，这使得我需要安装 ADB。

sudo pacman -S android-tools android-udev

NVM

因为需要使用 npm 进行 Web 项目的构建，所以说进行了一个安装：

yay -S nvm
echo 'source /usr/share/nvm/init-nvm.sh' >> ~/.zshrc
source ~/.zshrc 
nvm install node
npm install -g pnpm

可能会出现提示，tput: unknown terminal "xterm-256color"，输入以下来解决：

echo "export TERMINFO=/usr/share/terminfo" >> ~/.zshrc
source ~/.zshrc

可能会出现 nvm install node 包括 nvm ls-remote 的时候都输出 N/A，输入以下来解决：

echo "export NVM_NODEJS_ORG_MIRROR=http://nodejs.org/dist " >> ~/.zshrc
source ~/.zshrc

Anaconda

因为需要使用 Python，于是说安装了 anaconda：

yay -S anaconda
source /opt/anaconda/bin/activate root
conda init zsh

之后执行 clear 会出现一些问题，输出 terminals database is inaccessible，是因为 clear 和 conda 的指令出现了冲突，可以执行：

sudo mv $CONDA_PREFIX/bin/clear $CONDA_PREFIX/bin/clear_old

来解决这个问题。

ToDesk

因为之前使用的 rustdesk 使用的是同学的服务器，所以说要做好替代的准备，于是安装了 ToDesk：

yay -S todesk-bin

但是在打开之后，会发现网络出错，这是因为没有开它的一些服务，所以需要执行以下指令：

sudo systemctl enable todeskd.service
sudo systemctl start todeskd.service

大一回忆录

Thu, 03 Oct 2024 00:00:00 GMT

现在应该算是大三开学的第一周，属实是有很多的 ddl 缠身，一方面身上背负了两个科研任务，而且时间都很紧迫，而另一方面也有缓考考试的复习压力。不过好在是目前阶段性地完成了很多内容，于是奖励自己休息一下，写写流水账，回忆一下自己的大一生活，毕竟现在看来，当时的好多事情都已经回忆不清，假如再不提笔记下来的话，可能就确实被我遗忘了。

高考出分

想了想，故事应该从何开始，大概还是要在高考结束那一刻开始讲，那时候刚刚出了成绩，倒也可以说是垂头丧气。尽管现在我也经常自嘲，或者反过来调侃那些自命不凡的新生，但当时我确实打心底里认为，我高低算是个华五落榜生。

尽管从后来的选择来看，现在的这条路可能是最正确的，但是我在高中的时候对于数学十分感兴趣，再其次才是计算机，因此也有一直打算报考上交甚至清北的相关专业，现在来看，说不定我的能力并不足以支撑我学完数学这门学科，尽管我的水平在高中的时候，在校内可以说还算是数一数二的。

之前我算是报考了北大的强基，毕竟当时一模二模的成绩来看，我的水平是能够上那边的分数线的，甚至说假如超常发挥，说不定还能走普招路线，然后从结果上来看，确实是超常发挥了，只不过是反向的。

既然去不了清北华五，当时就开始物色其他学校，北航能够勉强够上边，武二倒也还行，至于我当时也很想去北理，然而现在来看，这个想法确实是错误。北理工可以说是北京考生的集中营，这并非一种贬义的说法，而是北理工的学校定位来看，正好处于那一批想上九八五又不想出京的好学生的分数线上，当然第二集中营是北工大，属于中上游学生的去向，我也有很多高中同学去了那里。

当时在广泛的研究了之后，也去了招生组那边进行询问，得到结果就是他们不能给我签约，换句话说，录取的专业没有保障，虽然我有一些意向，但是毕竟不是很保险。每个学校的专业组设置都很巧妙，将一些好的学科和差的学科分到一起，就让人在心里不免忐忑，在不考虑转专业的情况下，进了这个组能去哪里，一切都是个未知数。

尤其是当时去武大的时候，当时我也尚未和乐小姐在一起，到时还恋爱上脑地，因为可以带前女友去看樱花，而对武大心生向往。

孽缘纠葛

到这里也不免说一句当初的情感纠葛，这是我大一的上半年以及下半年开始都是绕不开的话题，换句话说，就是我和前女友的故事。本来是打算将这些内容和整体的故事穿插在一起讲的，然而如今回忆起来，刚刚穿插了一段，便已经破坏了好心情，于是干脆在这里汇总一下一起讲完，毕竟回忆录还是要全面，但是我也不想破坏后面的好心情。

我的前女友和我是初中同学，都算是我们初中当时学习非常好的人，也有点类似于在打闹间心生了一些好感，当时家里人也反对早恋，还出现了一些类似地下恋情的情节，两个人说话只能传小纸条云云。

后来貌似因为她的户口不在北京或是怎样，总之是不能在北京中考，于是父母一咬牙直接决定出国，她的家里也不算富裕，不过还是尽力将她送出去了。当时应该才初二结束，可以说早恋的我，当时心里也是十分不舍，和她有了一个约定，大概意思是十年之后再相见，还是会在一起的，后面就转用各种聊天工具互相联系。后来在高中或者大学开始的时候，和别人谈起这段情感，大家也都啧啧称奇，一方面时间确实很长，而且从中依稀能窥见一个专情的我，一方面我们两个的关系倒也不像是情侣了，而是某种网恋对象。

然而事实上这段情感，假如长话短说，一开始两个人倒也属于热恋，可以说你好我好大家好，在微信上每天聊聊生活，她那边刚到美国也人生地不熟，所以也有一番依赖我的态势。然而到了后来，一些可以说离奇的事情就发生了，可以说我对于之前的十年之约还是十分看重的，这类事情也能勉强忍受，现在回过头来看到也是觉得不可思议。

前女友本来就是一个假小子的性格，所以和男生们走得很近，我在恋爱关系中向来是给予对方信任的，然而逐渐的她就在微信上也不太理睬我了，一和她聊天，每次过不了多久就是朋友要找，或者是要和朋友去玩，又或者干脆不搭理了，许久之后才回复，是因为和朋友在一起。

后来还是初中的好朋友告知，因为他和前女友也算是朋友，前女友心中有愧，也不好意思和我说，于是向好朋友倾诉，不过好朋友还是告诉了我：她对于高中的一位同学也心生了喜欢的念头。

当时第一时间得知这一消息的时候，其实内心里是恶心想吐，但还是耐下心来向前女友询问，结果得到了肯定的答复，之后就是抉择环节，让她选择是和我在一起还是在那边另寻新欢，结果是选择了我。然而我也高兴不起来。这种事情发生了一次之后，我们两个的关系就已经发生了本质的改变，之前那种关系也再也回不去了，只不过是我之前答应了她十年之约，所以我还是要遵守我的约定。

大一的上半年其实本质上还是有一搭没一搭地聊天，她那边也会讲一些自己的大学生活。我向来是不吝啬介绍自己情感的人，因此我也不介意给我的前女友一些安全感，当时可以说也是在各种地方宣扬自己的前女友，然而她那边就好像把我隐藏了起来，倒也不怎么去说，因为后面的事情埋下了伏笔。

其实在高中的时候就已经有所预感，到了大学的时候这种感觉更加的明确，或许是因为长期的独自在外，我的前女友虽然说自认为很有认知，然而实际上心理却十分幼稚。当时正是全球疫情，于是前女友就大谈自由，然而有些幽默的是这里的自由，甚至大概率不是美国所宣传的价值观自由，而有点像是从动漫进击的巨人中艾伦的价值观中提取出来的。这种近乎于魔怔的一种宣扬，让我每次和她谈论政治相关的话题的时候都有一丝心累，而当时甚至我还是一个不折不扣的愤青，也就可以看出来她的言论到底有多么的令人忍俊不禁了。

到了后面去谈论一些事情的时候，毕竟前女友也会生闷气发脾气，我常常要耐下心来和他解释一些包括国家的考量，从一种中立到近乎冷漠的视角去分析当时的种种政策，然而她倒也还是总是语出惊人。这种价值观的不合尤其让人难受，我不愿意吵架或者让她不开心，从而在种种地方附和，而她她那一侧则是总是得寸进尺，然后到了后来，这种自由发展到了情感关系上，情理之外而在意料之中的事情还是发生了，她又一次喜欢上了别人。

然而经常她也愿意说一些文字游戏，类似于说，对于别人的感情是喜欢，而对于我的感情是爱，不过这种把戏说多了，我听完之后，剩下的也只有恶心了。不过我自认为当时也充分地做好了一个男友应该做到的事情，他有一些烦恼的时候依然听她倾诉，和她聊天，并且给她一些建议，按照现在的某些看法来说，就是给足了情绪价值。

再往后也就是她开始提分手了，一共提了两次，第一次被我拒绝，而第二次我已经遇到了乐小姐，在遇到乐小姐之前，尽管没有表露在前女友面前，然后我已经被这段感情折磨的精疲力尽了，而乐小姐像是白月光拯救了我，这个令人愉快的感情故事，我会放在正片内容里面一起去说，因此第二次提出分手的时候，我也就同意了。

当时也可以说某种带引号的和平分手，没有删微信也没有吵架，一段本来答应十年的约定，就这样戛然而止，我没有亏欠她什么，我们之前也说过，在另一个人要离开自己之前，不会主动离开，我坚守我的承诺到了最后一刻，尽管结局是背叛。

到了后来，我和乐小姐在一起了之后，记不清是因为什么，那位向我告知前女友移情别恋的好朋友又和我谈起前女友，大概是受了前女友的委托，询问我的感情状况。我当时和他说我已经有了喜欢的人，现在的人对我很好，我也很珍惜。好朋友说我懂，我会转告前女友的。他说话的意思大概是觉得我是某种暗示前女友复合，虽然我还没捋清这个脑回路。我说不是，历史的车轮总是向前的，不会回头，而人生的轨道也随着一次次这种决定，悄然岔开。后来好像因为什么，忘了是在这个之前还是之后，也有和前女友聊了一下，才发现真相，原来是她向喜欢的表白，被拒绝了，然后又念起了我的好。

然而这段故事，早已经在我的心里划上了句号，甚至早在很久之前，在第一次我知道她移情别恋的时候，这个句号就已经隐约的、远远的，别在了某一页的末尾，直到现在，我们的故事终于书写到了这里，然后不再继续。

报考西交

话题再回到主线故事，因为想去这些学校，所以我也去招生办问了问。

不过当时武大也是让我失望透顶，虽然本质上确实是我的水平不够，分数不够，然而我在他们招生办询问的时候，招生老师一边说着没有签约这回事，一边给隔壁桌子的同学递了一张签约的证明，可以说已经将轻视写在脸上了，因此之后就算能去，我也没有选择。

后来还是了解到了西安交大，当时看到了 C9 的牌子，而且分数倒也还够，心里想着或许是捡了个大漏，而且可能现在来看也确实如此。北京的学生不愿意去西部，这倒也是可以理解的，于是我们当时去了他们的招生办的时候，老师很热情的就让我进行签约，承诺让我去我在签约中填报的前三个专业之一。当时北京的专业有数试和人智，除此之外就是一些越杰的预选，我把数试放在了第一位，然后把人工智能放在第二位。

从结果上来看，我去了人工智能，这也就意味着在我前面有两到三个同学成绩比我好，不过现在回头来看，也许去人工智能才是我最终，也是我最好的归宿，也可以充分发挥我的能力。不过在当时来看，一切都是未知，那时候 ChatGPT 还没有横空出世，Stable Diffusion 也还没有进入大众的视野，而在我入学之后，人工智能也开始一路狂飙。

可以说我几乎用了最小的代价，就去了可以去的最好的学校的最好专业，这在当时并不看得出来，然而在如今的视角下来说，我完全可以挺起胸膛说，我在的专业就是西安交大的王牌专业之一，而我做出的也是最正确的选择。

水群之旅

我从高中开始就是水群爱好者，之前的一些新生群，我也常常是高度活跃在里面的成员，因此，无论是老生还是新生，在高中里面我都认识很多人。如今到了大学，尤其是还没有入学的这一年，我的时间可以说是更加的充裕了。

当时假期主要做的事情有几件，一个是和几个高中的好朋友去了一趟成都，算是毕业旅行，这些人在后面也就各奔东西，虽然我们也有约定，后续还要聚一聚，然而终究还是没有等到齐聚一堂的那一天，常常是几个人在，几个人又不在，如此往复。一个是报复性地玩游戏，当时有钱，也有时间，也没有紧迫感，于是可以说也是爽玩了一阵子的游戏，直到最后甚至已经没什么感觉了，认为这些都已经没了什么意思。而最后一件事情就是水群了。

当时是高中一位同样去了西交的同学，拉我进了新生群，从此我就一发不可收拾，也在里面认识了后续的很多好朋友，尽管这些人在现在，都已经有些疏离了，但在当时还是不可多得的友谊。

其中或许比较重要的，一方面是加入了专业群之后，拉进来了很多的同学，因此也和很多本年级的同学认识了，直到现在我或许也在吃着当初的红利，专业里面绝大多数的同学都认识我，也都对我十分客气。因为这件事情我也当上了专业群的管理员，从拉进来了更多的同学，并且根据之前自己向学长询问的一些信息，向一些同学答疑解惑。包括说我们班的班级群也是我建立的，如今尽管我不是班干部，但是我依然是群主。

而另一方面则是加入了日本流行音乐社，这个社团在后来因为社团名称中的“日本”二字，被迫改名成了轻音音乐社，而在此之前则叫偶像文化研究社，但当时因为肖战等事件，也是被迫改名。当时这几次事件我基本上也都是亲历者，可以说也是印象深刻，以及，为了名称统一，下面就统一叫做轻音音乐社了。

如此说来，我在互联网上“喵”的口癖，其实倒也来自于社团水群的过程中的玩闹，不过后面发现这一后缀确实具有亲和力，而且也倒还算可爱，于是就保留了下来。

刚开始在新生群水群的时候，可以说还没有什么远大的志向，基本上觉得能快乐的度过大学生活就已经很不错了，也没有主动向学长询问过保研之类的经验，与如今的我倒也算大相径庭。

所以可以先不去说后续的故事里面，那些苦大仇深的内卷内卷和熬夜，先来说说那些美好的过去的日子。

开学伊始

当时那时候，我还是比较喜欢玩游戏的，在更早的时候，我是暴雪游戏的拥趸，准确的说，我很喜欢守望先锋这个游戏，一方面游戏性极佳，另一方面确实对应的世界观和角色都很吸引人，也带给我了很多快乐。当时守望先锋二才出，尽管我其实比较喜欢的角色末日铁拳被换成了坦克，机动性不再，但是我转成了枪位，水平依然不错，所以游戏体验依然也很好。

不过其实令人唏嘘的，一方面是后来暴雪离开了很长一段时间的国服，直到我目前这段时间，也就是大三的时候，才和网易再一次敲定了合作，而这段时间内的无所事事，也让我再一次脱离了游戏。

一开始去报道的时候，那段时间可以说相当无忧无虑，当时也拍摄了最早期的几张女装，因为看起来还不错，所以渐渐的也就会抽出一些时间来进行一些拍摄。

在轻音音乐社中，当时的社长茗酱，以及配音部部长茜老师，对我十分的友好，而且两个人的相处风格，又是给了我一种深处于那种青春校园漫中的感觉，甚至到了后来，因为我参加了 RM，以及存在一些学业上的压力，和轻音音乐社的关联不再密切，在路上遇到他们两个人，依然会很热情的打招呼。

说起来那时候艾尔登法环刚刚出了，茜老师已经是资深玩家，当时还在游戏里面给了我不少装备，可惜后来我也没有坚持玩下去，具体来说是因为 RM 的培训，这个后面再说。

另外和这个社团印象比较深刻的事情，应该是 WOTA 艺部门的分家事件。按理来说，这是一个历史遗留问题，因为我们社团之前是从动漫社独立出来的社团，而 WOTA 艺和两边都有关联，在当时招新的过程中和社长起了不少的摩擦，毕竟去了他们部门就不能加入我们社团的主要其他部门了，而他们则存在着大量的提前招新。于是在某一次商讨过后，就决定让 WOTA 艺部门切割到动漫社。

在当时我其实想做一个享受大学生活的资深二次元，因此还参与了 WOTA 艺部门的活动，甚至当时还购买了一双两百多块钱的光棒，然而后来因为切割了，所以一直没有派上用场。在那个部门中认识到的同学，时，当时和我感觉关系还行，在切割之后也没有很多次见面了，下一次接触貌似是在体育课上，我们也打过招呼。

因为我高中参加过 RoboMaster，所以说到了大学之后，因为之前听同学讲过大学也有这个比赛，因此在专业群里咨询了不少学长，当时 RoboMaster 的视觉组组长 WJH 告诉了我这个比赛的加入方式，而从此，命运的车轮也开始转动。

在大学一开始的时候，因为疫情的原因，所以基本上不太涉及上课，当时报名参加了视觉组，对于当时的我来说，可能连 C++ 的使用都不算很熟练，而且还想超前学习课内的课程，因此添置了很多额外学习。可以说，虽然课内的压力不算大，但是依然忙的团团转。

后来我很愿意和他人讲的故事，是我当初学习的节奏，尽管大多数时候我说这个故事的原因，是想让别人引以为戒，因为我确实走了太多弯路，然而确实有很多人也把它当作了我刻苦的表现：因为一直在学习以及混乱的作息，再包括我甚至不太需要离开地下室，当时我的作息基本上是六小时一轮换，其中可能有四个小时在学习，学累了就睡两个小时，然后以这个为一个周期连轴转。作为代价，现在我每每回忆起那段时光，都感觉一阵后怕，更何况其实相较于整段的二十四小时作息，这种作息并没有什么优势可言，也没有帮助我学到更多的知识。

当然在需要上课的时候，我的作息也就会因此规律不少，有的时候也会去轻音社的社办（活动场地）和朋友们打一局桌游，姑且就算是劳逸结合了。

不得不承认的一点是，我或许是一个比较有天赋的人，但是肯定不是一个进度超前的人。在很久以前，我就已经开始接触计算机，然而除了会比别人多摆弄几下软件和程序，倒也没有多学过什么东西。我自己了解的那些编程，主要集中在一些算法竞赛中最基础的算法，以及只到基础语句的 C++，而我对计算机科学也称不上感兴趣，当时可能还更喜欢玩。

然而伴随着几个星期到一个月的了解，一方面是确实一些领域十分有趣，一些技术十分吸引人，另一方面，我也急需一种对于人工智能这一专业的归属感。总之由于诸多的原因，我开始厚积薄发，或者按照调侃的话来说，就是开始沉淀，从 C++ 基础开始，然后数学知识、机器学习、深度学习，后面缓缓地展开。

学习小记

既然已经开始提到了会令大多数人皱眉的内卷，或者说狠狠学习，先不管那庞大而没有细节的主线，可以来简单说几件值得记录的事情。

我这个人在一开始的学习过程中，一直有一种攀比心理，尽管现在依然存在，但是我可以巧妙地将之用另一种措辞描述，peer pressure，或者焦虑。不过在学习的过程中，我确实会不断地关注他人的学习进度，并且保证自己的进度始终领先。

我的舍友（因为没有找他询问许可，而且我也属实比较内向，不愿意开口向他询问，因此还是用缩写来表示）CJ 同学，是少年班的学生，虽然在我们这一届，少年班并未展现出过大的优势（据我所知的部分普招同学，在努力后取得了不错的成绩），然而从后两届来看，少年班的综合素质还是远高于普招学生的。CJ 属于是比较典型的沉默寡言技术宅形象，而且可以说计算机功底也很深厚。

一开始我超前学习的时候就注意到了他的进度，并且想要追赶他，而到了后面之后发现他的进度确实远超于我，在我依然学习一些计算机视觉相关的内容（这些内容其实多半以工程为主，并不硬核）的时候，他已经在学习算法竞赛中较为靠后的知识了，再往后我也就放弃了比较的念头，毕竟努力的方向不同，努力和回报也没有可比性。

再说上课这方面，正如前面说到的，我一直在超前地学习，因此课上其实能够做的事情不多，毕竟那些讲的东西我早就已经学过了，在这里依然不得不再次夸奖我的高数以及线代老师，张永怀老师，我在大学认真听的课不多，然而张老师的课确实令人印象深刻，对于知识点的透彻以及娓娓道来，成为了我对学校教学质量的第一个好印象，尽管后续证明这种好印象不是持久的，也可能是我个人的问题，导致很多课程没有用心去听，所以没有发现其他老师的闪光点。值得一提的是，剩下两个令我印象十分深刻的老师，分别是模电的杨建国老师以及计算机体系结构的任鹏举老师，在他们的讲课中尽显专业水平，不过这已经是大二的事情了。

RM 之旅

要是说我大一期间花的最多时间在哪里，毫无疑问就是 RM 社团，事实上到了之后我才发现，社团拥有错综复杂的人际关系，因为一直在搞技术，所以没有注意到。

当时也不能说很擅长一些东西，但是开始自己去不断地自学，然后完成任务，通过考核。当时的视觉组组长是 WJH 学长，然而后来应该是因为队伍的一些问题而退出了，换上了当时已经大四的 LYZ 学长。

一开始是说大一的同学只能当梯队，所以说最后的任务我也就没有花费精力去写，而是把时间留给了自己的一些课余学习，然而随着 WJH 学长的退出，也带走了另一名学长，导致视觉组的名额一下子空缺的出来，本来说只能招一名正式队员，而如今我也入选了，一共收纳了三人。

从后面来看，这里可以说就是命运的齿轮开始转动，后续一切事情其实都和这次学长的退出息息相关，我走了很远的路，这里算是一个起点。

在以正式队员的身份加入了之后，大量的时间就被铺设在了社团里面，不过当时因为一直有疫情，主要还是在社团里面自习，后面需要去写一下相机取流的程序，我也就很快地写了。

其实在这个过程中，我也渐渐发现了我写程序的风格，相较于其他同学来说，可能效率确实快一些。大多数同学会广加思考，然后再小心翼翼地写下几行程序，然而我却是在一开始就潦草地将程序糊在上面，然后等后续再进行 debug。这种行为我也说不清楚好坏，但是确实在后续的一段时间内，这让我的效率明显比其他人高。

学期之中

话锋先再次一转，让我们把话题放回到正常的学习生活中，当时在选课的时候，阴差阳错选择了艺术健美操，一开始我认为会是做课间操一样的课程，然而上半学年学的是花球，也就是啦啦操那一套东西，而下半年学的是爵士，最后的考核是跳了一段韩舞。

可以说也是因为这些原因，导致这个班级里面基本上全都是女生，然后对于那时候的社交能力来说，我和大家相处的也还算不错，当时在这个课程里面，因为默认相同书院的人一起组队，自然我也就和同班的一些同学认识了，上半学年主要是 ZRX 同学。

因为在高中的一些社交相处，我其实总结出来了一套和女生比较正常的交流的方式，也就是如何和大家成为正常的朋友，而不是产生某种暧昧的关系。比较重要的其实是说话可以稍微幽默风趣一些，尽管不是在进行某些抽象的酒吧撩妹，但是在一个几乎全是女生的课堂上面说一些一本正经的话，然后让没有人理睬你，可能确实会有些尴尬；与此同时，我可能个人来说，因为留了一些长发，所以也会缓和作为异性的一些侵略感；另一个我颇有心得的则在于，对女生的称谓，一般来说，假如管女生叫“哥”或者“老师”，一方面比较有趣，一方面其实也带来了一种心理暗示，即大家是好朋友，或者大家之间其实有一种距离感，相反的表现在于称呼女生的名字，甚至三个字的名字中的后两个字，则可能导致暧昧的反效果。当然除此之外反复的在聊天中表示自己已经有了喜欢的人，并且展示恩爱也是很重要的一点，这当然是一锤定音的那一个，尽管当时我的感情状态其实很糟糕。

包括说大一的时候其实帮她和一些其他的女生（有必要指出，其实我帮助的更多还是男生）解答过一些编程上的问题，可以说当时大家的关系是很好的。

事实上，因为大二没有再选类似的课，我和她的联系也不算很多，以及自己的学业压力越来越大，也就没什么机会，包括在作业和实验中出手相助，或者日常的交流。反而是和她的同乡，LXW（男生）走得比较近，因为邀请 LXW 加入了 RM，不过这是后话了。

还有一件令我印象深刻的事情应该是期中考试，我记得没错，考的应该是高数。尽管我有做过很多的学习工作，但是假如读者了解我或者感兴趣，其实我在西安交大生存指南中有阐述过我的学习哲学，也就是将知识点学到了看答案能看懂的程度，以便在将来可以通过快速回顾知识点来了解新知识中同样用到这些知识点的内容。这种方式毫无疑问是高效的，但是显然并不利于考试，进行了短暂且仓促的复习之后，考试貌似考了八十分。

事实上，那时候的我也并没有什么高瞻远瞩或者远大的志向，打算争取一个年级前列，又或者是保研到外校，所以其实当时取得这个成绩之后，我的心里也并没有什么很大的波动，只是感觉这个成绩不太好，下一次需要继续努力。

随后的日子里倒也没有什么大事发生，我每天按照混乱的作息来学习，然后完成 RM 的任务，当时在闲暇时间甚至还会玩一把守望先锋，和现在相比其实也算是 work life balance 了。

另外一件可能值得一提的事情，应该算是我给计算机程序设计这门课写了复习大纲，可以说我的某些开源之路也是从此开始的。虽然我在这之前已经有过一些分享，但是都比较简单，包括说对于 C++ 在 Windows 环境里的配置以及一些其他内容,但是第一次成体系的写了几千字的内容，教大家如何复习计算机程序设计，甚至当时的精力十分充沛，还写了一些例题，帮助大家更好的理解。后来这个大纲，被老师放在了计算机程序设计复习课的压缩包里面。供我的学弟学妹们使用。当然这已经是后话了。

之后时间到了放假前夕，因为疫情变得严重了，没有期末考试提前放假，而地下室也要被封上，假如记得没错，当时是因为说检测到了一例病例。

当时视觉主要做的主要工作其实是能量机关，拍摄了一些能量机关的视频，然后也就匆匆离开了。在之后的一些时间，因为防疫以及各种的要求也就需要回家，本来安排的冬训也没有进行。没有考试，没有冬训，当时在家里其实准备大干一场，学习很多的新知识，不过事实证明我并没有这个毅力，也就没有成功，最后充其量也就是学习了一点点的机器学习，以及把第二学期的大多数课程学完了。

不过其实这样来看，假期也是一个重大的转折点。因为当时我写了相机取流的程序，并且被要求进一步和 GYT 去看一下能量机关，就像是之前说的一样，因为我的写程序风格，导致我的任务完成得很快，通过整理老程序的屎山代码（无数的函数嵌套，而且没有固定的规则，代码的层级也不分明），很快就整理出来了一套解耦的传统视觉能量机关识别方案，然而交给 GYT 去做拟合。

不过后来因为官方公布了新规则，能量机关的样子也出现了变化，所以说本来的程序其实作废了，然而整体的框架因为整理的比较好，所以并没有本质的问题。通过观察新的能量机关的视觉特征，新的一版程序很快就写了出来。不过在这里也有必要说明的是，我们后面也发现了传统视觉的经典重要问题，也就是对于曝光的依赖性很高。

我为了快捷的调节曝光以及二值化的一些参数，甚至说写了一个可以用键盘可视化调参的程序，这样可以在比赛前短短的十五分钟调试时间中确定下来这些参数，但是即使是这样依然比较极限。所以在做完了这一版的传统视觉方案之后，我们也就开始探索神经网络的方法了。除此之外，可能值得一提的应该是这段时间内我读的一些书，包括说统计学习方法，这种经典的机器学习大部头，以及一些对于计算机视觉的阐释，例如图像信号处理。

这本冈萨雷斯的经典书籍讲述了不少的内容，用详尽的例子以及配图，很好的说明了计算机视觉的基本概念以及传统算法，只能说不愧是圣经。当然实际上到目前为止，这本书中的，内容还没有给我带来什么实质性的帮助，毕竟后面我聚焦的深度学习，其实这些内容都已经被嵌入到了编码层里面。

下半年开始

到了下半年开始的时候，这时候我已经有了充分的数学基础以及机器学习的能力。同时 RM 的程序的第一个小版本也已经基本写完，具体来说就是包括相机取流和电控的通信，以及能量机关的识别和预测。同时我也封装了一些接口，可以进行在线的调参。

当然更多来说的话，在下半年开始的第一件最重要的事情还是期末考试。就像之前说到的，因为疫情原因导致了上半年结束的时候的期末考试没有正常进行，所以说需要在下半年开始的时候进行考试，可以说是一种机缘巧合，或者说是命中的注定，但是我的期末考试成绩确实不错，当时也达到了年级第二名的水平，而且可以说这还不包括加分。当时我是绝对有能力竞争一下年级第一的能力的，但实际上我并不认为我具有那些超过认真学习的同学的纸面水平。只是说因为运气原因恰好考的比较高。在之后，我的排名也开始慢慢的下滑。虽然不得不承认的是，这主要的原因还是因为科研以及竞赛消耗的精力。

可以说从那时候起，我的身上已经搭载了一种别样的命运，或者说是一种重担。因为忽然之间我发现我距离那些我曾经不敢想的院校也好，还是前程也好，都变得触手可及。因此，保研这件事情也第一次的浮现在了我的脑海中。无论是科研还是其他内容，我也都需要开始慢慢的着手开始准备。

除此之外的一些事情，其中当然最有必要提及的就是我认识了乐小姐。我们两个人的相见，可以说也是一种巧合。事实上，从现在开始，回忆起来，过去的太多事情都是很小概率发生的，但是在命运的牵引之下，它们串在了一起，并且构成了如今的我。就像之前说到的一样，我在轻音音乐社里面的之前比较活跃。事实上，忘记讲的是，我甚至在里面成为了宣传部长，也算是一个四星级社团的任职。不过因为后面在 RM 这边也有着五星社团的副职，所以说在音乐社那边的任职加分并没有派上用场。而且到了大一下的时候，因为各种学业以及竞赛科研的繁忙，我也开始逐渐脱离这些娱乐，但是在那一天还是极其巧合地参加了轻音音乐社的一次聚餐。

根据后来当事人的回忆来说，我们两个在后续进一步的相识、相知以及相恋的开始，是因为当时一名她的学长曾经有兴趣加入 RM 社团，但是在培训中被刷掉了。而因为我是 RM 的成员，并且当时吃完饭后带领轻音音乐社的一行人来到地下室展示我的程序，其中的某一刻可能打动了她。该说不说，这也算是长久以来学习到的工科知识为数不多派上用场的一次了。在此之后，我和乐小姐两个人经常一起出去吃饭，那时候两个人也就算是好朋友，所以吃饭也是 AA 制的。不过岳小姐的胃口不是很大，所以经常吃饭总是我一个人吃了很多人，而她只吃了一点点，却要和我 AA 一半的钱，可以说那时候也是占了不少便宜。

当时比较经常带她去吃东南门外的其她的烤肉的。而烤肉的时候，我总是帮她烤，然后给她夹。据她所说，她还和自己的闺蜜聊过这一点，因为我们并没有确立这种恋爱的关系，所以说她也在思考这种举止是不是过于亲密。

实际上因为当时的情感状态确实非常糟糕。就在这篇文章的开始的章节中也有提到过，各种的压力以及情绪夹杂在一起的，而恰好乐小姐又像是我人生中的太阳一样，忽而出现，并且给我带来了许多温暖。因此，我对她也产生了一种情愫。

可以在其中夹杂的一段故事是关于 RM 的。因为当时能量机关已经基本上完成了，所以我开始负责自瞄相关的内容。因为一些原因，老代码我打算完全的弃用。这里面一方面是 ROS 系统的安装过于繁琐，而且太重，并不适合进一步的开发。以及在新人加入之后的培训，为了一个坐标系转换以及程序间通讯的功能，从而需要花费大量的时间从头了解 ROS, 这并不是一个十分明智的选择，而且之前的自瞄逻辑可以说也不太能派上用场。无论是从预测的角度出发，还是从识别来看，当时的一些算法都已经过时了。我们之前的初步方案是使用神经网络的方法。按照沈阳航空航天大学的开源进行了一些配置的。并且取得了不错的效果。后面在 RM 完成了省赛之后，我们在省赛中因为哨兵比较好，我的自瞄算法也发挥了不错的功能，所以成功夺冠。

也是那段时间，前女友提出了分手，我不知道这应该说是一段长久的故事的终结，还是可以故作轻松的说是双喜临门，但是反正上一段关系结束了。因为这件事情其实和乐小姐发生了一些争执，乐小姐认为是因为她的原因导致破坏了我和前女友两个人的感情，从而导致了分手，因此还要和我断绝联系，不过在我后续的解释之后也理解了我和前女友之间可以说是有些畸形的感情关系。

在之后的某一天晚上，我和她一起散步，回宿舍的时候，我向她表白了。当时我想要得到她的回复，而她只是将手指放到我的嘴唇上，然后便匆匆离开了。晚上的时候，等待了良久，她那边拍了一张照片，是一个明信片，上面写着我恰好也喜欢你。

从此，一段新的感情开始了。乐小姐相较于前女友来说，更加的温柔，对我也很体贴。当然我们两个人也有发生过一些争执，一开始因为两个人刚刚在一起，所以说彼此之间其实需要一些安全感。而就像我之前说到的，无论是我之前有认识一些同班的女生也好。还是说，和高中的一些女同学是好朋友也好，这都会让她失去一种安全感。因此我也开始精简我的社交关系，然后花更多的时间陪着她。乐小姐经常给我买一些牛奶或者面包一样的吃的，因为当时我花了很多时间在地下室中工作，而平时的作息也不是很规律，所以这些东西确实能够满足我平时饿了需要吃点东西的需求，以及早餐也不需要前往食堂去购买。还是令我十分感动的。

总体来说，和乐小姐两个人的感情故事，可以说是逐步升温，尽管中间出现了一些争执，以及小小吵过几次架，但是我都比较积极的在挽回，并且也都安抚了她的情绪。所以慢慢也就变成了现在的关系。两人亲密无间，可以说是十分恩爱了。包括从一开始两个人在路上只能并排行走，到现在，可能忽然悄悄亲她的脸一下，或者从身后抱住她，她也不会见怪，可以说是亲密了很多。

下半学期其实没有经历很多波澜壮阔的事情，包括从这学期开始，可以说我的故事也会变得更加简洁一些了。因为在 RM 社团中投入的时间变多，以及更多的自学，我的社交生活开始逐渐的收敛，直到几乎不太和别人打交道，也就导致我目前的社交情况只是和 RM 社团里的几个同学，一些比较厉害的学弟学妹以及女朋友，这些人有着比较亲近的关系，而其中更主要的是和女朋友两个人在一起相处。

当时另一件令我印象比较深刻的事情，应该算是队伍去长沙比赛，而可以说当时是第一次，我和女朋友分别比较长的时间，两个人也都比较想念彼此。当时当我女朋友说出来，我回来的日期和时间是什么的时候，我是十分惊讶的，毕竟之前我从来没有和她说过这个事情。后来她说是她在购票软件里面一个一个查看的时候（因为我和她说过我大概是晚上上车之类的），瞬间我就感动了，感觉从小到大，除了家人之外从来没有人这么关心过我，甚至愿意付出时间来知道我什么时候会回到西安，尽管这没有任何的价值，但是依然愿意去做。

结尾

实际上到了下半年之后，很多的事情我就已经不太能回忆的起来了。一方面是因为我的社交活动确实变少了，大多数的时间都在社团里面熬夜，这些经历也都在 RM 回忆录里面有写，所以在也没有必要再次赘述一遍。我参加了分区赛，以及后面的话在暑假的时候参加了国赛，那时候我已经做到了视觉组组长的位置，这些经历也都没有必要再去重复讲一遍。因为在社团里面花了很多的时间，所以最后的考试成绩也不是很理想。再加上综测分之后，我大概能到前五名，而没有综测分的时候，也就只有第九还是第八来着。当然排名到了大二之后又在下滑，不过这已经是后话了。而且那时候我已经投入了科研，并且把科研成为了我的第一竞争力，因此排名的存在感也就更加逐渐弱化。

在大一的大多数时间中，确实都是以学习为主。很显然，学习又不是可以值得记录的，大片时间多半是分散在每一天里面的碎片化时间，不过在结尾处还是有必要做一个简短的总结：我在大一过程中到底学了多少。首先是在大一上的时候，一开始就学完了高数线代以及概率论等，包括后面在 RM 中学习一些 C++ 以及 OpenCV 的相关内容，再包括说一些 Linux 相关的技巧。而后大一下的时候就开始学习机器学习以及人工智能相关的知识，包括说一些计算机视觉的科班内容。其中比较典型的应该比如说李航老师的统计学习方法，西瓜书，以及诸如深度学习这一类的书籍，以及图像信号处理这些书，前前后后大约读了能有五六本。然后就开始学习深度学习的学习，比如说 pytorch，并且当时应该也就已经看了大约 50 篇论文，也算是做了科研的第一手准备。除此之外，各种的其他内容也都不计其数。

我依然在做资料分享，分享了不少的我自己总结的笔记，来帮助同学们更好地复习，然后有同学 YXJ 组织了 AI 学辅，我也挂名在了里面，不过后续的事情也就需要等待大二的回忆录再去说了。

可能值得一提的是，在大一结束的时候之提到的前任视觉组组长 WJH 推荐我加入了绿群，也就是计算机保研交流群，这件事情可以说对我的未来产生了深远的影响。无论是结识了一帮志同道合的人，发生了很多的事情，在开源中走了更远的路，还是自己的能力和方向得到了明确和成长，都和绿群脱不了关系。

不过确实也没有什么更多可以说的了，先在这里画上一个暂时的句号，之后我又想到什么大一期间发生的事情再补充上去。

CUDA & CUDNN & Pytorch 安装

Thu, 03 Oct 2024 00:00:00 GMT

因为之前的 Ubuntu 系统又因为我自己的不小心所以坏掉了，于是又一次尝试重装系统，但是出现了很多的问题。

我的系统是 Ubuntu 20.04.6，在清华大学镜像站下载的最新版，电脑显卡是 NVIDIA GeForce RTX 3070 Laptop，可以支持 CUDA 12.2，在本段内容书写的时候，Torch 的官网使用的最标准的 pytorch 是 CUDA 12.1 的，所以安装这个版本，以及 9.3.0 的 CUDNN。

安装 CUDA 与 CUDNN

首先给出下载 CUDA 和 CUDNN 的官网，其中 CUDA 12.1 为 https://developer.nvidia.com/cuda-12-1-0-download-archive，CUDNN 9.3.0 为 https://developer.nvidia.com/cudnn-downloads，之后依次选择自己的系统版本即可。其中 CUDA 的安装方法使用的是 runfile (local)，并且在此之前运行了 sudo ubuntu-drivers autoinstall 并重启以安装 driver。

问题出现在，对于任何一个全新的最小安装的 Ubuntu 20.04 系统，在使用 runfile 的时候，均会报错，并说明在 /var/log/nvidia-installer.log 中可以看到详情，为：

-> Error.
ERROR: An error occurred while performing the step: "Checking to see whether the nvidia kernel module was successfully built". See /var/log/nvidia-installer.log for details.
-> The command `cd ./kernel; /usr/bin/make -k -j16  NV_EXCLUDE_KERNEL_MODULES="" SYSSRC="/lib/modules/5.15.0-117-generic/build" SYSOUT="/lib/modules/5.15.0-117-generic/build" NV_KERNEL_MODULES="nvidia"` failed with the following output:

make[1]: Entering directory '/usr/src/linux-headers-5.15.0-117-generic'
warning: the compiler differs from the one used to build the kernel
The kernel was built by: gcc (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0
You are using:           cc (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0
MODPOST /tmp/selfgz3405/NVIDIA-Linux-x86_64-530.30.02/kernel/Module.symvers
ERROR: modpost: GPL-incompatible module nvidia.ko uses GPL-only symbol 'rcu_read_unlock_strict'
make[2]: *** [scripts/Makefile.modpost:133: /tmp/selfgz3405/NVIDIA-Linux-x86_64-530.30.02/kernel/Module.symvers] Error 1
make[2]: *** Deleting file '/tmp/selfgz3405/NVIDIA-Linux-x86_64-530.30.02/kernel/Module.symvers'
make[2]: Target '__modpost' not remade because of errors.
make[1]: *** [Makefile:1830: modules] Error 2
make[1]: Leaving directory '/usr/src/linux-headers-5.15.0-117-generic'
make: *** [Makefile:82: modules] Error 2
ERROR: The nvidia kernel module was not created.
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' for details.  You may find suggestions on fixing installation problems in the README available on the Linux driver download page at www.nvidia.com.

经过检查，发现问题其实很简单，是因为 g++ 等版本为 9，太高了，设置为 7 即可。

sudo apt-get install gcc-7 g++-7
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 9
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 1 
sudo update-alternatives --display gcc
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 9
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 1
sudo update-alternatives --display g++

之后再次运行，获得输出：

===========
= Summary =
===========
Driver:   Not Selected
Toolkit:  Installed in /usr/local/cuda-12.1/
Please make sure that
-   PATH includes /usr/local/cuda-12.1/bin
-   LD_LIBRARY_PATH includes /usr/local/cuda-12.1/lib64, or, add /usr/local/cuda-12.1/lib64 to /etc/ld.so.conf and run ldconfig as root
To uninstall the CUDA Toolkit, run cuda-uninstaller in /usr/local/cuda-12.1/bin
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 530.00 is required for CUDA 12.1 functionality to work.
To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
    sudo <CudaInstaller>.run --silent --driver
Logfile is /var/log/cuda-installer.log

设置环境变量：

sudo vim ~/.bashrc # or ~/.zshrc

之后在最后添加：

export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64\
                         ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

之后再 source 一下：

source ~/.bashrc # or ~/.zshrc

就可以正常的使用 CUDA 了：

nvcc --version

输出为：

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Feb__7_19:32:13_PST_2023
Cuda compilation tools, release 12.1, V12.1.66
Build cuda_12.1.r12.1/compiler.32415258_0

之后的 CUDNN 以及 torch 的安装就是按照提供的正常流程进行，完结撒花。

全部的指令包括以下内容：

sudo apt update
sudo apt upgrade

sudo ubuntu-drivers autoinstall

reboot

sudo apt-get install gcc-7 g++-7
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 9
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 1 
sudo update-alternatives --display gcc
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 9
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-9 1
sudo update-alternatives --display g++

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run

sudo vim ~/.bashrc # or ~/.zshrc

### add following in .bashrc ###

export PATH=/usr/local/cuda-12.1/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64\
                         ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

################################

source ~/.bashrc # or ~/.zshrc

wget https://developer.download.nvidia.com/compute/cudnn/9.3.0/local_installers/cudnn-local-repo-ubuntu2004-9.3.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2004-9.3.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-9.3.0/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh

安装 Pytorch

conda create -n torch python=3.8
conda activate torch
pip3 install torch torchvision torchaudio

之后在 python 中 torch.cuda.is_available() 返回为 true。

周记 Week14

Thu, 03 Oct 2024 00:00:00 GMT

现在貌似周记迟到一两天已经是常态了，不过目前还是写了，而且也没有发现什么会无限拖延下去的威胁，所以说就暂且不去纠正这个坏习惯了。

总的来说，这个星期基本上就是在意大利度过的，也就是过去参会 ECCV，这件事情我觉得还是比较有趣的，因此做一个简单的记录。

意大利

首先来说印象比较深刻的，就是意大利的天气了，可以带着引号的说，国外的空气确实“香甜”几分，出发的时候西安还比较炎热，起码在正午的时候是这样的，而到了晚上有些寒冷。不过在意大利的时候，下了飞机传来了就是一股恰到好处的凉爽，加上确实意大利米兰这个城市不算很发达，基本上属于是古朴的小镇，所以一路上视野开阔，确实有一种秋高气爽的感觉，让人身心愉悦。

确实在这个城市里面有不少有意思的设定，是我之前没有想到我会看见的。包括有轨电车，无处不在的信用卡支付以及会吐出的大量发票，还有超乎我想象数量的带有欧式风格的建筑。以及不知道算是意外还是幸运，但是在米兰的时候并没有遇见治安混乱的情况，基本上都是平安无事。

上篇博客里也给出了图片，我去参观了米兰大教堂，确实是和国内完全不同的一种华美，那种极具雕琢的艺术组成了一座庞大的建筑，那种视觉的冲击感确实难以言表。

这几天主要的时间其实去了会场，然后晚上的时候在酒店里面写程序，准备之后的工作，所以说几乎没有太去逛他们的城市或者景点，倒是吃了一些所谓的当地美食，不过和国内确实相差甚远。

我觉得或许比较有趣的一件事情是，我住的酒店里面有一个浴缸，一般来说在国内会是淋浴，因此在我用热水把浴缸反复清洗了五六次之后，我就开始了为期六天的泡澡生涯。我有些难以形容这是一种怎样的感受。

在写代码写累了之后，整个人躺在浴缸的温水中，感受着浮力将你轻轻地托举着，然后卧室的窗半掩，微凉的风轻轻的吹拂进来，我将半个头埋到水下，能感受到那一抹凉微微刺痛我的皮肤，而水的温度又令人心安，让人的思绪不禁飘向远方。

另外，再分享一些意大利时候的碎碎念。一方面会场的饭确实很难吃，我基本上吃了一次之后就没有再考虑了，但是其实还好，可以有糕点和巧克力吃，这个我倒是经常品鉴一番。一方面其实这出国的几天也提升了我的口语水平，虽然说我的口语确实不太好，但是因为现在有了使用的刚需，所以说也要硬着头皮去表达，这让我在和外国人交流的时候能在我所了解的学术领域中表达我的见解。当然最后我的 poster 顺利展示了，不过我 present 到一半就离开了，紧张是一方面的，更多的是精神状态不是很好，我到了米兰之后过了前两天的正常作息，又飞快的变成了熬夜的情况，导致那时候我实在头晕的厉害。

在意大利的几天可以说是十分 work life balance 的，这导致在我周日回国之后立刻陷入了极大的不适应之中，后来思考了一下，大概是因为还有学校存在吧，这算是在两边的唯一变量，而且现如今又一次出现的 ddl，主要的提供者还是学校课程的作业，那些不会对我的未来有任何帮助的内容，在无尽地侵占着我的时间，浪费着我的精力，并且不会给我任何收获。

然而显然我这样抱怨不会有什么结果，而且其实可以预见的是，这种现状在将来的很长一段时间内都不会有改变，所以也就只能闭上眼睛接受这一切了，希望可以尽早脱离苦海吧，但是至少当下还要熬夜，把没写完的作业写完。

周记 Week13

Wed, 02 Oct 2024 00:00:00 GMT

这周的周记又是迟来的一次，不过还是发生了很多事情的，值得记录。

ECCV

这一周其实最主要的折腾就是前往意大利米兰去 ECCV，这耽误了很多的时间。不过说起来我对一出国参加会议这件事其实态度经常发生转变，一开始的时候肯定是十分激动的，非常向往这种学术交流；但是后来变成了一种惶恐，我其实知道 ai 领域中一些人做了一些很有意义的工作，虽然大多数工作还是以增量式为主，然而他们所在的领域至少看上去是光明的，然而我其实并不是很认为我的工作具有什么重大的意义，进而害怕被拷问；而后变成了厌倦，漫长的签证以及学校审批的流程实在是令我身心俱疲，心中暗道下次会议一定让人帮我贴个 poster 就完事了，我肯定懒得去；但是去了之后突然感觉很是新鲜，又有了之后继续去的动力。当然其实另一个不知道能不能说的，是在于独自一个人住一间酒店，然后女装。

诚然我需要承认，可能相关的事情，我确实有一些癖好，但是不得不说的是，这确实很能缓解我的压力。具体来说对于我来讲，可能穿上比较好看的裙子以及丝袜，花上一个多小时拍摄几张自己很满意的照片，确实是一种在繁忙的任务中慢下来的好方法，并且可以让我身心愉悦。

同时一方面女朋友在催促，一方面师兄也拉上我，在周日去了米兰的一些地方逛了一逛，主要还是米兰大教堂，以及买了一些纪念品之类的，也拍了一些照片。

除此之外，我也完成了 ICLR 的工作，把应该跑的实验做完了，按照之前和本校周老师商量的，应该这也是本校这边我 lead 的最后一个课题了，之后更多的精力可能会放在上海那一侧的实习，本校这边老师将来打算在医学方面尝试做一个子刊，到时候我可能也会帮助一下，想想 idea，以及说不定还需要我帮忙写一些程序。周老师找了四名新同学组建了全新的医学影像小组，说来之前和我一起进组医学影像的两名本科生同学一名已经去了浙大直博，另一个则是应该要去考研，而只有我一个人有学术发表，如今新人换旧人，也让人不禁感慨时光荏苒。

当然，不得不说的是这一批新人里面，大家的水平还是比较有限，甚至说连基本的读论文的能力，以及查找资料能力都比较有限。我之前是有了解一些向周老师陶瓷的同学，感觉都还不错，但是现在的一些同学，不知道是不是因为之前联系的比较早，不过感觉相对实力确实差点意思。

上海科研

上海这边实习的事情，则是有点不顺利。大概的话也不能说的太细节，可以理解为我在调用一个其他人的工作，然后把它部署到我的框架里面，但是坐标系转换的过程中出一些问题，类似于没有对齐。现在来看这个问题已经修复了，确实是在比较蠢的地方犯了错误，不过还是实打实的消耗了三天时间，时间肯定不在 mentor 那边的规划中，所以还是需要进一步的抓紧一下进度。

除此之外的话，上海那边的 mentor 还推荐了我作为 ICLR 的审稿人，可以说这也是我第一次当审稿人，目前还无法接触到具身领域的审稿（因为自己之前的论文不是这个方向），但是我也会尽力去审稿的，尝试给一些自己的见解，自然也很期待别人的投稿是什么样子的。

这周也没有发生更多的事情，作业之类的可以等到回去再写，下周可以稍微努努力的同时享受一下在意大利的生活，以及这和女朋友过的也很开心，直接进行一个贴贴。

感觉虽然这一周依然很劳累，甚至在赶飞机的时候，在机场还要用电脑跑实验（因为我是游戏本，在没有电源的情况下，甚至完全开机就花了五六分钟），但是好在一些之前欠下的事情都开始尘埃落定，接下来还是有更美好的盼头的。

周记 Week12

Tue, 01 Oct 2024 00:00:00 GMT

又是一周的周记了，写下这篇内容的时候是星期日，刚刚考完了复变函数，虽然不是特别特别顺利，但是感觉也还说得过去，之后的日子应该就是以科研为主了，加上和女朋友两个人的快乐生活了。曾经欠下的债总算是熬出了头，下个星期再努力写一下 ICLR 的论文，之后就可以专心投入我觉得有意思的科研内容了。

尽管现在我写下这篇内容的心情十分的轻松愉快，但是这种心情却来自于长久的压抑，可以说这个星期的主旋律依然是抗压。

这周也是开学的第二周了，假如是正常的同学，其实应该说的是自己也渐渐地适应了开学的节奏，然而很久以来的锻炼，早已经让我可以摆脱学校的节奏，而进行自己想要做的事情，因此这方面倒也无所谓了。

基本上第二周的感觉和第一周还是很类似，每天在课上花点时间睡觉，然后下课之后待在电脑前狠狠学习。因为直到周日为止才有机会稍微自由一些，在此之前还是主要以课内为主了。

学习

我其实主要会有一种毛病，遇到紧张的时候越想做一些与 DDL 无关的事情，于是乎在这次复习的间隙中，我又开始筹备继续写西安交大生存指南的事情了。事实上我个人认为所谓的第一版本已经完全完成了，尽管我可以说想要加入更多的人文关怀，但是作为一个抒发我个人暴论的指南，这么做有必要，但是并非我的核心主旨。然而最近确实又遇到了不少的问题，因此感觉还是有必要再次抒发一下，包括对于前面一些内容的补充。

生活

此外可以在这周说的，大概是恋爱，和乐小姐两个人依然相处的十分愉快。其实从一种角度来看，我们似乎已经很久没有吵架了，当然这并非说我们之间不会有口角摩擦，然而事实上就是，我们两个人都知道这是一件可以被解决的问题，并且可以很快地解决掉。

一方面因为实习的原因，多了一些闲钱；而同时一方面是因为，即使没有这些钱也会和乐小姐一起到处吃饭，所以说还是去吃了好多的饭，带领乐小姐到处觅食。因为饮食习惯之类的问题，我们两个基本上都是吃火锅，因此主要吃了海底捞以及巴奴，不过发现海底捞确实越来越让我们缺乏兴趣了，巴奴还是不错的。主要是我们可能吃了太多次了，基本上每次就是点一些鸭血、海带苗、竹笋之类的，不过因为我们喜欢吃的一些菜都已经下架了，比如说鸡胗卷以及黑鱼片。

最后从结果上来说，感觉考试应该也还算顺利，虽然不是完全临时复习，但是只能说临时的成分依然是很大的，不过显然最后的努力没有白费，考了九十多分，挺不错的。

这一些事情开始尘埃落定了，剩下的一件事情是 ICLR 需要抽出时间来收尾，之前确实因为复习，我还是比较怂，所以把网课之类的都看了好几遍，因此其实后续的时间对于 ICLR 来说就比较紧张了，因为之前来说大概完整的论文只有一层壳子，但是文字部分没有润色，而可视化的图也还没做。至于另外的上海的科研实习，则需要更多的时间投入了，目前计划是 CVPR，时间已经十分的紧张了。

总的来说，这周放下了一些重担，也有好好生活，接下来要为了迈向更美好的生活而努力了。

周记 Week11

Mon, 16 Sep 2024 00:00:00 GMT

这一次倒也没有像之前一样迟到太多，或者说，这一次周记其实是按时在写的，倒是也可以记录下来一些当时的感受。

本来我是想要像上面一样写的，然而现实十分的不幸，第一段的几句话是我在星期三就提笔写下去的，然后到第二段的时候，又已经是下个星期一的凌晨了。

这个星期可以说也是十分的忙碌，主要其实体现在这是第一个星期，很多事情还需要适应，有很多事情需要准备，而且身上的任务还很多，这些会在后面去说，然而依然可以说的是，总之来说，这个星期是幸运的。

医学影像项目

不知道看过之前周记的读者是否记得某一次我提及的，我所参加的一个医学项目，当时我在里面承担了主要工作，但是后续却被项目的负责人认为没有获奖是我们的问题（我们在答辩期间负责远程而设备出现了一定的问题，导致在当时我们起身并调节了一下设备），然后事实上当时专家提出的问题，现场答辩的同学也没有回答出来。

尽管那位负责人在我的眼里，这件事情可以说做得十分不厚道，然后在平时此人还是比较和善的，尤其是作为同是口腔医学的学长，也是为我的女朋友提供了不少的学习方法的指导。然而最近发现这位学长又将我和我的女朋友拉黑了，虽然不知道是出于什么刺激，毕竟最近也没有联系许多，然后最后经过解释，双方的误会还是解除了，也算是一桩幸事。

上海科研

另外一件让我开心的事情其实体现在，上海那一侧科研的待遇问题，或许是因为我的贡献度确实不错，所以待遇也算不错，还是令我十分欣喜的。一方面，我感觉我的付出是值得的，受到了尊重，当然另一方面也是一种责任。尽管很多学生在求学的时候鼓励广撒网，然后我本人无论说是怂也好，还是说具有契约精神，终究是不太愿意无缘无故辜负别人，因此，或许我要更加努力在项目中尽自己的一份力，这很重要。

不过主旋律还是和之前一样，依然是压力为主，这个星期过后，距离考试也就剩下了的一星期的时间，而距离 ICLR 的投稿也就剩下了两个多星期，所以其实说到底，时间还是很紧张的。

目前考试的复习已经基本结束，可能还需要一些刷题之类的，论文那边的整体内容也都已经写完了，一些格式上的东西，以及实验还需要跑，这些都是时间的开销。

下个星期结束的时候，我需要准备好论文可视化的内容，这些东西还需要比较细致的整理。

不过目前来说，上海那边的项目进度其实不是很乐观，当然我也可以说在十月份投稿完毕之后加班加点的去进行工作，然而深度学习就是一件需要考虑绝对时间的事情，毕竟包括采集数据或者训练模型，他们的时间开销是不能压缩的，因此一些需要在之前完成的事情依然不能推迟。

感情

当然也可以谈一谈感情上的事情，现在和女朋友两个人可以说是十分和睦了，基本上只要两个人在一起的时候都十分的开心，也不会出什么争吵之类的，而且可能说两个人都已经十分信任彼此，颇有一番老夫老妻的意味。

例如一个举例，在和乐小姐刚刚在一起的时候，我当时可能还算是比较热衷于社交，和大多数同学都聊得来（虽然现在也聊得来，但倒也不会选择主动进行没有意义的交流了），因为选课原因有认识同专业的几位女生，而当时可以说是，因为按照书院一起组队考试，和那几位女生有聊天，乐小姐就会十分警觉，并且让我断了联系。

我现在来说可能在培训的时候，也会有一些女同学向我请教问题。而在我向她吐槽一些同学的水平有些堪忧（当然这种话题进行过很多次，主角是男生或者女生兼有之），她也不会在意我辅导的到底是男生还是女生了。

RoboMaster

然而说到培训，也就是 RoboMaster 这一边的事情，我到底还是负责一些内容的，或者说因为后续可能自己也难以兼顾很多东西，在前期的时候还是打算稍微多做一些事情的，也算是不辜负一些人一直在对我的期待吧。

然而在培训的时候，或者说在面试的时候就已经展现了一些端倪，这届同学可能基础相较于上一届还是稍微薄弱了一些，当然一些同学是会使用包括 Linux 或者 OpenCV 在内的一些我们要求的内容的，不过比例确实也不高，还可能有大量的同学因为课业压力或者激情的衰退而选择退出，这都是很有可能的事。

值得一提的是今年又有了几位女性同学选择加入视觉组。老实说我对于性别已经不是十分敏感，毕竟已经是有了女朋友的人。貌似一位女生向我请教过两次问题，我对她主要的印象还在于她用的是华为笔记本以及在 Windows 中使用了中文用户名（当然这也有我脸盲的原因在）。但是几年下来确实是，视觉组一直以来都只有男生存在，而经常被人调侃。

虽然我不愿意抛出什么性别在内的观点，然而假如一个组别里面的男女比例适当，确实可以激发每一个人工作的积极性，虽然视觉组的同学在性别单一的情况下依然十分积极。

不过很遗憾的是从目前的情况出发，这些有意向加入视觉组的女同学，被淘汰的概率依然很高。在工科中男女比例就已经失衡，而在这其中愿意去做机器人的同学，这一比例可能会更加的倾斜，而其中有水平的同学更是少之又少。在这样一个情况下，目前的视觉组中确实我没有见到比较具有技术能力的女同学。

而尽管我设计的培训，我可以很有把握的说，一定可以让任何零基础的同学都能上手，而且从中学到东西，然而有基础的那些人的先发优势是不可忽视的，毕竟即使零基础可以上手，毕竟会存在大量的试错过程而消磨热情，长此以往，确实有基础的同学更有可能留下来。

所以总的来说，这个星期还是在欣喜与抗压中度过，再继续往前走往前看的时候，压力或许会越来越小吧。不过目前来说，我和乐小姐两个人一起生活，同时在学习中提升自己，这段日子我还是乐在其中的。

Paper Reading: Benchmark

Sat, 14 Sep 2024 00:00:00 GMT

前言

因为将来要做 Benchmark 相关的一些内容，而且 Benchmark 延伸出来的数据飞轮在当下的我看来，比大多数的 Methods 和 Ideas 都要更加本质，所以说也要阅读相关的论文。

奇奇怪怪的 CS 小技巧

Tue, 10 Sep 2024 00:00:00 GMT

前言

在这里也算是开一个新坑，分享一些没什么用但是或许对于一些人来说比较有帮助的内容，主要来说是一些 CS 的一些装饰性的内容，或者说一些简单易懂的技巧，比如说某些主题设置，或者类似 watch -n 1 nvidia-smi 这种几行就能说完的内容。

Github badges

准确的说，这种 badges 是可以在任何地方使用的，但是一般来说还是在 Github 里面见到的会多一些，所以干脆就在描述中添加一个 Github 的前缀。具体这个是个啥呢，在这里介绍的是我比较喜欢的一种描述一些 popular brands 的 badges，大概如下：

所以基本上可以发现，假如说你有一些需求，比如说想要展示自己的技能，就可以通过这种方法来展示这些技能对应的 badges，也算是一种十分炫酷的方法。本质上这个东西依然是通过经典的 shields.io 来实现的，具体的详情可以从链接进去来看文档，这里面给一种比较傻瓜式的调用方法：

![](https://img.shields.io/badge/{title}-{color}?style=for-the-badge&logo={logoname}&logoColor={logocolor})

这里面可以看到四个内容，分别是：

title：badge 的文字描述。
color：badge 的背景色，使用 hex 编码表示（不包括 #）。
logoname：badge 的 logo 名称。
logocolor：logo 的颜色，使用 hex 编码表示（不包括 #）。

在这里面，logo 的名称可以在 https://simpleicons.org/ 中找到，在这里建议将 logo 颜色设置为白色，然后背景色设置为网页中推荐的那个 logo 的配色，会比正常设置要有质感一些，比如说显示 vitepress，就可以使用：

![](https://img.shields.io/badge/vitepress-5C73E7?style=for-the-badge&logo=vitepress&logoColor=FFFFFF)

Paper Reading 0

Mon, 09 Sep 2024 00:00:00 GMT

前言

算是写在一切之前，在开始我的 LLM 以及 embodied 之前，自然还是下过不少的基本功的，在这里算是记录一下，后续的内容也会陆陆续续的更新。

整体来说，这是一个 Paper Reading 主题的内容，在此之前曾经一度被我称之为 LLM Talk，但是思索了良久，一方面我自己的水平只是给出来一些 Paper 的浅显理解，而算不上 Talk；一方面我确实也有打算阅读更多的论文，也可能总结一些之前阅读的论文，这些都会横跨不少的领域，因此干脆就叫做 Paper Reading 吧，符合初衷，而且比较直观一些。全部的内容还是尽量按照我的阅读顺序来写的，所以说在时间线上并不能完全保证，或许某一天有更多的时间的时候，可以抽身出来好好整理一下，不过感觉也是需要等到很久以后了。

我写的大多数的 paper reading 或者说 insight 分享，都是某一天想起来再写的。我估计我读过的论文，估计少说也有两百多，一篇一篇写是不太可能了，只能说慢慢读，慢慢写，想起来写，纯凭兴趣。

正常的基本功内容以及之前的一些文章，可以说也有很多了，要是说写完，倒也不太可能，姑且作为一个长期的工作吧，希望能够有写完的一天。

机器学习

一开始是学习机器学习，在这里，大多数的知识点就是算法本身，更加偏向于数理之类的内容，不存在太多的 insight。要是真说是有的，估计是对于诸如熵/分布/采样等内容的理解与重视。中间看过几本书，推荐李航老师的《统计学习方法》以及周志华老师的《机器学习》。统计学习方法有简博士的讲解，在我写这篇博客的时候，依然还在连载，不过事实上到了后面，一些内容很容易就看进去了，倒是不太需要视频。

深度学习

Paper Reading: LLM

Mon, 09 Sep 2024 00:00:00 GMT

BOW

BOW，也就是 Bag of Words，是一种十分简单的模型，简答来说就是将一句话使用词的形式进行分割，然后用键值对的形式进行储存。这样做的一个显然的结果就是，词袋模型并不能很好的建模语言的顺序，但是作为一种最为初级的 tokenizer 来说也已经很不错了。

所以很显然，词袋模型的第一个通病，就是处在无法对于语序进行建模这个问题上，而且同时，可以理解为这个模型是使用一种表格来进行表示的，这种表格是 one-hot 且离散的，本质上也没有很好的建模语言。

词袋模型的一个 trick 在于处理过大的词表，可以使用 hash 的方法，更好的利用空间。

参考资料：

词袋模型 - https://en.wikipedia.org/wiki/Bag-of-words_model
Feature Hash - https://en.wikipedia.org/wiki/Feature_hashing

TF-IDF

TF-IDF 可以理解为是一种对于知识库中的文档中的词汇的重要性的建模方法。这个思想十分简单，也是由两个因素组成，TF 和 IDF，前者用来形容一个词汇在文档中出现的次数，后者则是使用了这个词汇的文档的次数。但事实上其中使用了 log 与乘法等内容进行数学形式的计算，不过这里只讨论 insight。

这种方法很好地体现了一个真正的关键词汇，在文档中所需要包含的特征。首先，这个词汇一定会被反复提起，因此这个词汇与文档的关联性才高；同时，这个词汇不会被太多的文档所提及，假如被被提及太多，意味着这个词汇丧失了独特性，诸如人称代词等一系列内容，均符合 TF 的描述，因此需要 IDF 来进行 filter。

参考资料：

TF-IDF - https://www.cnblogs.com/L-shuai/p/13817978.html

Word 2 Vec

Word 2 Vec 是一种用于生成词向量的技术，它通过将词语映射到一个高维向量空间中，使得语义相似的词在向量空间中距离较近。其中比较常见的是 skip-gram 和 CBOW 两种模型，前者是使用词预测上下文，后者是使用上下文预测词。简单理解一下方法的话，CBOW 是输入一个词（one-hot 向量），然后经过编码，再解码为一个向量，最大化上下文的概率；CBOW 则是输入上下文，最大化词的概率。这两种方法显然都可以很好的训练编码器，也就使得词汇被编码到了一个连续的高维空间中。

Word 2 Vec 的一个 insight 是，它将词映射到了一个高维空间中，而高维空间中，距离较近的词，语义上更相似。因此，这种思想可以拓展到其他领域，例如图像，声音等等，将不同模态的信息映射到同一个高维空间中，然后进行相似度的计算。

周记 Week9

Mon, 09 Sep 2024 00:00:00 GMT

这一周可以说也是过得平平淡淡，不过快要开学了，或许等到开学之后，有意思的事情就可以多一些。感觉这些东西甚至没有必要分成章节来说，还是简单的随意聊一聊吧，至少作为过去的这一周的记录。

学业

这应该是我在上海这边线下实习的倒数第二周，一些阶段性的工作也都已经弄完了，可以进入下一阶段，并且更多的做一些事情。事实上我是非常想要一直呆在这边的，而且假如可能的话，这边应该是保研的唯一意向，双方可能都交流的比较好，而且这边的环境也属实不错。

不过作为本科生，课内的学习确实是第一要务，所以还是需要回到学校的，参加一些实际对我已经没什么帮助的课程，然后在教室里浪费一些生命。

本身来说，这周的事情还是很多，强行 push 自己做完了 ICLR 的 Method 部分，相关工作和实验部分都有其他的东西可以借鉴，创造性的工作已经几乎完成了，只是现在实验的结果不是很顺利，所以还要进一步的调参。实话这个内容并不是很顺利，所以剩下的也只有折磨了，在经历了一开始的几个成功案例之后，剩下的只有挫折，但终究还是要慢慢熬过去。

同时补考的时间也开始临近，虽然之前也有学习过，但是老实说我也没有很大的把握，知识点已经差不多遗忘了，最近再看一看课，争取把沉睡的记忆唤醒，不然后续可能也会有大麻烦。

其实事实上很大程度上，这一周以及下一周（因为写作这篇周记的时候已经是下一周），在学习中的主基调还是挫折。我确实又学到了很多新知识，但很遗憾，我会将大多数新知识归结为没有人带领入门，这也是很糟糕的事情。大量的内容我不知道应该向谁请教，很多时间我都在重复造轮子，而且一些相关工作身边的人也没有涉及，在摸索中大量的时间被消耗，而我做到的事情，可能其他人在有计划的指导下不到半天就可以完成。

到头来这其实是传承的比拼，确实有很多人帮助了我，但是大多数时候还是我一个人在孤军奋战，不过这种自学的能力，我在一次次锻炼中也倒早已掌握，希望我最后的结果可以不负自己当初的期待。

这段时间我又在想着新博客的事情，看到了一个框架，Astro，确实比我现在使用的 Valaxy 更加专业一些，可以个性化的定制自己的博客，而 Valaxy 本质上其实使用的还是主题，想要进行覆盖也不太优雅。

不过现实是，就像我之前说的一样，这一周的主要基调还是挫折，在按照教程老老实实的学了之后，在代码高亮的设置上还是屡屡失败，最后放弃。哪有什么捷径可以走呢，想要用自己的几天甚至短短几个小时的努力，就达到别人努力了几年的积累，再怎么想也是天方夜谭。

生活

在上海，因为也算呆了一段时间，可以说一些生活节奏也是慢慢地熟悉了，然而可以说还是比较遗憾的一点，就是我依然没有什么社交的活动，或者去参观一些上海其他地方（之前在同学的邀请下去了上交）。

感觉就我个人性格而已，比起来户外的一些探索，可能更加适合在网上进行冲浪，或者和女朋友两个人窝在一起。

说起来还有一周也要开学了，也快要见到女朋友了，还是十分期待的，又一个多月没有相见，希望她也要开开心心的。

总的来说，这一周也没有经历太多的事情，也算是平稳过渡了，自己的一些能力有了很多长进，但是同时要做的事情还有很多，也需要仔细去准备，这都是必须要考虑的，还是先踏实下来好好做些该做的事情吧。

周记 Week10

Mon, 09 Sep 2024 00:00:00 GMT

于是乎也算是写到了第十篇周记了，可以说是可喜可贺，当初创建博客的时候，还有回忆过之前的 WordPress 创作经历，可以说还是花钱不讨好，而现在居然已经坚持了十周的周记。

这段时间里面自然也有一些技术类的分享，但是更多的还是欠下了很多的债，或者说挖开，但还没填好的坑。像是 Isaac Sim 的文章，我目前自己学习的进度已经远超越这篇文章，本来写下来是打算给同样入门的同学去看的，但是再这样下去，我已经无法设身处地地想到那些初学者会遇到的困难了。现在手头还有两个工作，可能后续处理完之后也就有时间把这些东西再整理整理了。

学业

这也是在上海的最后一周了，也算是开始了我的正式工作，也就是一个应该算是我主导的课题，工程量总体来说还是很大的，而且也有一些时间成本。现在基本上代码是可以跑起来了，算是第一个小阶段告一段落，但是后续的事情还有很多，而 DDL 又不是很宽裕，还是要抓紧去做的。

课内的一些事情也或许值得说一说，最近开始整理德育分，发现基本上自己的德育分都是 RM 这边给的。只能说，虽然大多数时候这边都把人累得够呛，但是关键时候确实能够帮上我不少事情，尤其是像是给工时之类的，免去了去做很多琐事的时间。

然后或许就是社团的面试，因为又是新的一年招新季开始了，所以说作为视觉组组长，我在 RM 这边也要开始负责面试，以及后续的一些培训工作。到大三之后，可以说我已经成了名副其实的老东西。大二作为组长面试的时候还需要考虑对一些大三同学的尊敬或者什么的，当时甚至还有直系学长前来，而如今可以说，无论是在技术积累还是在培训阶段，目光所至的地方已经没有多少可以指导我的同学，对于大家对一些自我介绍，也可以比较准确的切中那些核心部分，而且那些包装的地方揭开真面目。

一些现象确实也比较触目惊心，不少同学，其实在面试中都提到了自己有某某经历，然而我尽管学习的颇有广度，但假如他们真的在自己所说的领域中深耕许久，我必然没有他们所具备的深度，然而没有一个人能触及到我的知识盲区，甚至几个来回之下就已经说不出话了。

这还不同于一开始我所担忧的，如同在西安交大生存指南中提到的，不少同学虽然努力，但是却将才华被浪费在了重复性的工作中，现在来看，不少人还没开始努力，也还没到，需要包装自己的时候，就已经开始说起了场面话，玩起了文字游戏。不过好在一些零基础的同学看上去还是未来可期，或许和当初的我也有些许相似，一些对技术的渴望，一些热爱以及数不尽的精力，只是不知道这种，是他们的故意表现还是确实如此。

当然，最后新的学期要开始了，一些日常的学习也需要好好努力。

生活

终于又是和乐小姐见面了，还是很让人开心的，毕竟足足已经有一个多月没有相见，虽然平时都会在微信上聊天，但是还是不得不进行了一个狠狠的贴贴。

和乐小姐一起去吃了海底捞，服务员也有问，好像我们很久都没有来了，我们之前经常一起出去吃饭，而她们那边校区旁边的海底捞是我们经常的选择。这里不得不说，海底捞之间也是有差距的，Momopark 店的服务十分的贴心到位，而反观兴庆这边就差点意思了。

总的来说还是很顺利且幸运的一周，看起来一个假期的努力都是值得的，希望我和她能继续开心下去，享受学习享受科研享受生活吧。

RoboMaster 视觉组第三次培训

Fri, 06 Sep 2024 00:00:00 GMT

import { Aside } from 'astro-pure/user'

前言

本篇章为 RoboMaster 笃行战队视觉组的第三次培训内容，也是第一次的培训任务。下述的内容实际上转载自同样原文由本人写作的 RoboMaster 笃行战队视觉组第一次任务书。

任务说明

Ubuntu 20.04 安装任务是 RoboMaster 笃行战队视觉组的第一次培训任务，要求组员通过虚拟机/双系统/WSL/服务器等方式安装 Ubuntu 20.04 系统。

组员在完成任务的过程中需要注意以下的内容：

安装系统是具有风险的选项，尽管约等于 0，读者或许可以选择备份一些自己的重要文件。
在必要时候，读者可以在视觉组招新群公开进行提问，这并不会记为失职，然而我们不鼓励私信提问，公开的提问有助于讨论氛围的产生，也可以获得尽可能多的帮助。在提问之前，读者有必要了解提问的智慧，但是我们并不对提问具有如此严苛的要求，作为培训，组织者有帮助新人的义务，但是我们希望你遵守以下内容：
- 检查相关问题是否已经在 QQ 群中被提出过。
- 详细说明自己的环境配置，例如电脑型号，显卡，以及 Ubuntu 版本等。
- 详细说明自己的问题，例如，我按照教程安装，但是出现了 xxx 错误，我尝试了 xxx，但是没有解决问题。
- 在提问之前，尝试自己解决问题，但是不要花费过多的时间，因为你的时间同样宝贵，快速获得解决方案正是提问的价值所在。
教程给出了 Ubuntu 20.04 的双系统的安装方法，但是并未给出虚拟机/WSL/服务器的安装方法，在这里简单列举一下对比：
- 虚拟机可以在 Windows 系统中运行，比较容易安装，但是在后续任务中的配置可能会出现没有接触的问题（视觉组的主要技术积累在于双系统上的开发），且具有较高的性能限制。
- WSL 基础并不具备图形化界面，需要并且需要进行一定量的配置，但是是在 Windows 系统中最为优雅的方法之一。方法可以参考此篇博客。
- 服务器具备一定的延迟，需要网络才可以使用，并且需要按量付费（此经费需要自费，本任务已经给出大量的常规方法），但是配置十分地一键。同时，部分的如文件传输/GUI 较为麻烦。
组员在安装双系统的过程中可能遇到无法找到磁盘的问题，这可能与 BitLocker 有关。
提交的任务包括详细的报错解决记录，如，自己按照某教程安装，自己的电脑环境与配置为 xxx，在过程中遇到了报错，并且查阅某教程或通过某方法解决了这一问题。这一过程需要详细的记录，但并不需要无报错过程中的信息或者截图，即，如无报错，可以仅提交：“按照 xx 教程进行配置，没有报错”。
任务的提交形式为，在 Github 上 Fork XJTU-RMV-Task01 仓库，并在其中提交一个 README.md 文件（在自己 Fork 的仓库下，而非提交 PR），内容为上述内容。图片使用相对路径或者图床均可。.md 文件为 Markdown 文件，Markdown 文件是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成有效的 HTML 页面。详细的教程见 Markdown 教程，视觉组录制的课程中也同样存在相应内容。
Git 与 Github ，注册 Github 账号、安装并设置 Git、Fork 操作、提交更改可以参考西安交大生存指南贡献指南的部分内容，如何创建仓库以及上传文件，在网上同样大量存在。对于联网问题无法解决的读者，可以使用 Gitee 替代 Github，并自行创建仓库而非 Fork。

前置

什么是Linux系统

在安装Ubuntu系统之前，我们必须了解什么是 Linux 系统，简单来说：

Linux 系统是一套免费使用和自由传播的类 Unix 操作系统，是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统，其内核由林纳斯·本纳第克特·托瓦兹于 1991 年 10 月 5 日首次发布。它能运行主要的 Unix 工具软件、应用程序和网络协议。它支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。Linux 有上百种不同的发行版，如基于社区开发的 debian、archlinux，和基于商业开发的 Red Hat Enterprise Linux、SUSE、Oracle Linux 等。

而 Ubuntu Desktop 是由 Canonical 开发的 Linux 发行版（指由 Linux 内核开发的操作系统），由于其易用性，它是最受欢迎的发行版之一。它也是刚开始使用 Linux 的人的首选之一。

为什么选择Ubuntu系统

对于阅读这篇教程的人来说，主要是因为工控机中使用的是 Ubuntu 系统，这种系统对于各种内容的解释比闭源的 Windows 系统好得多。同时 Ubuntu 系统在日常的编程中因为一些指令的存在，对于配置依赖等也十分的便捷（相较于 Windows 简直便捷了无数倍），使用 Ubuntu/其他 Linux 系统是一名成熟的计算机领域人士的必备技能。

什么样的电脑可以装上Ubuntu系统

首先对于安装 Ubuntu 系统的电脑来说，根据本人个人经验，假如说是想配置一套可以长期使用的 Ubuntu 系统，电脑应当有一段完整的空白的空间位于某一分区的末尾，并且大小在 100GB 左右（假如说只是用于基础的编程，或许40GB左右就可以）。

选择双系统而非虚拟机

相较网上一部分的教学，关于虚拟机安装Ubuntu系统，我们更愿意选择使用双系统，虽然它需要重启才可以在不同的系统之间切换，但是这可以让 Ubuntu 系统发挥电脑的全部性能，同时直接使用那些 Ubuntu 的设计（Ubuntu 中的软件为 Ubuntu 而设计，而并非虚拟机，许多内容在虚拟机上进行配置需要额外的步骤，且网络的资料不多）。

简单来说使用过虚拟机的读者应该有所了解，虚拟机会要求分配一定的资源给虚拟机，之后其和Windows系统会一同运行，这毫无疑问会消耗多余的性能。

启动盘

在经过了前面的介绍，我们已经知道了什么是 Ubuntu 系统，并且我们要具备怎样的条件才能搭建 Ubuntu 系统了，接下来就来到了制作启动盘的步骤。

什么是启动盘

启动盘不像其名字一样，像是每次启动这个系统的时候都需要使用启动盘才可以启动一样，要是更加形象的形容，更像是一个放置系统的安装包的地方。比方说你从 Windows 系统下载了 Ubuntu 系统的系统文件（一般为 .iso 文件，也就是光盘映像文件），这个文件本身等于说是放在了 Windows 系统所属的存储空间中，你很难指望在一个系统里的文件能跳脱出这个系统而去在电脑中安装另一个系统，而假如说你将这个文件放到一个 U 盘中，虽然说 U 盘也可以在 Windows 系统中被识别，但是，值得注意的是，被识别。是的，U盘并不属于 Windows 系统，所以我们可以使用 U 盘进行安装，而这块 U 盘便被称为启动盘。

制作流程

现在网络上一般的教程都使用 Rufus 软件制作启动盘，但是这种方法无疑存在一种弊端，便是会“毁掉”你的 U 盘。

在制作启动盘的过程中存在一步被称为“部署”的步骤，这一步会将 iso 文件放进你的U盘，但是使用 Rufus 之后，你的 U 盘将不能用于其他的用途。也就是说即使你有一个 1TB 大小的 U 盘，而 iso 文件一般只有不到 4GB，你的U盘也不能再装进去任何东西，否则就无法进行后续的系统安装了，而假如你想用这个U盘安装其他的系统，制作成其他系统的启动盘，你则需要格式化这个 U 盘。

不过，技术总是在变革，在这里推荐软件 Ventoy，Ventoy 软件具有诸多的优势，此处让我们引用一段其官网的说明：“简单来说，Ventoy 是一个制作可启动U盘的开源工具。有了 Ventoy 你就无需反复地格式化U盘，你只需要把 ISO/WIM/IMG/VHD(x)/EFI 等类型的文件直接拷贝到U盘里面就可以启动了，无需其他操作。你可以一次性拷贝很多个不同类型的镜像文件，Ventoy 会在启动时显示一个菜单来供你进行选择”。

让我用通俗的流程来讲解一下，以下讲解下载并安装 Ubuntu20.04.5：

从清华源下载 ubuntu-20.04.6-desktop-amd64.iso（点一下直接下载，或者不行的话可以手动前往清华源界面选择 ubuntu-20.04.6-desktop-amd64.iso 下载）。（Ubuntu 22.04 使用链接 22.04.4，选择 ubuntu-22.04.4-desktop-amd64.iso）。
下载 Ventoy-LatestRelease（从 GitHub 下载需要一定网络条件，此处选择的链接源自南京大学镜像站），或者不行的话手动前往其官网挑选下载，如下载 ventoy-1.0.99-windows.zip。
解压下载的 Ventoy 压缩包，该压缩包开袋即食，进入解压后的文件夹，启动 Ventoy2Disk.exe，应出现以下界面：

在电脑上接入已经准备好的 U 盘（建议是空 U 盘，否则做好内容备份，安装 Ventoy 也会对 U 盘进行格式化，但之后可以依然作为存储介质），点击软件中“设备”右侧刷新图标，然后下拉设备菜单，选择你的 U 盘，之后点击安装。假如不出意外，可以看到你的U盘名字被改成了 Ventoy，之后把你事先下载好的 ubuntu-20.04.5-desktop-amd64.iso 文件拷贝进 U 盘即可。

在这里可以解释一下 Ventoy 的特性，这是一个可以制作多系统启动盘的软件，安装在你的 U 盘之后，一切被拷入的系统配置文件都会被自动配置，在重启并按照正常安装系统流程操作的过程中会出现一个菜单界面（下图），供你选择你想要安装的系统，而同时这个 U 盘也可以用于常规的拷贝文件与储存。

到这里，你的启动盘已经制作完成了，貌似非常简单，接下来，将进入安装系统的步骤，请聚精会神，不要错过任何一个步骤。

安装系统

准备空间

首先，在安装系统之前，还记得我们之前说的吗？要保证你有空闲的 100GB 空间，当然，这前提是，你失去了这 100GB 空间之后，你的 Windows 系统的空间依然不会显得逼仄（尤其是 C 盘，Windows 系统的文件会不断变大，假如说不知道缩减方法，不建议盲目删除一些东西，而也因此需要为 C 盘留下一定的空间余量）。

Windows+E 打开资源管理器，右键单击此电脑，选择管理（Windows11 需要先点击显示更多选项），进入计算机管理页面。点击存储-->磁盘管理，会进入以下界面：

在这里找到你之前觉得有空余空间的磁盘，单击右键选择压缩卷，在页面中“输入压缩空间量”中输入你需要压缩的空间大小，若按照之前的要求 100GB，你需要输入 102400，然后点击压缩，等待完成即可。

关闭安全启动

不同的电脑的安全启动关闭方法各不相同，大多是在重启电脑之后狂按（没有夸张的成分，这是合理操作）F2 或其他 F 区的键，进入系统的 BIOS，之后关闭安全选项中的 secure boot，不过不同的电脑型号的关闭方法各不相同，有的甚至有多余的操作，比如说需要关闭 VMD 等，请根据自己的电脑的品牌以及型号自行查找相关方法。

检验是否成功的方法就是操作完之后装一下系统，如果能顺利进入安装界面，就没有问题。这一步一般不会对电脑有损伤，有报错不要慌张，重启电脑，平稳拔出，若电脑不能恢复，进入 BIOS 复原之前的修改，还不行则及时找计算机高手，切勿自己擅自操作。

虽然如此说，这一步一般来说不会出现问题。

安装系统

插入制作好的启动盘，重启电脑，重启的过程中狂按 F12（这一步为调用 one time boot，一些电脑没有此功能，可能需要在 BIOS 中的启动顺序中将你的 U 盘顺序调至最高），然后在出现的页面的左下角找到你的 U 盘（可以尝试辨别一下是哪个，或者先退出，然后去 Windows 里看看你的 U 盘的学名）即可进入上方给出过的 Ventoy 菜单界面，理论来说应该只有我们需要安装的 Ubuntu20.04.5，按下 Enter（回车）进行确认。

值得一提的是在大多数的非图形化页面中，并不存在光标这一物体，需要通过键盘的上下左右键（不是 WASD）进行选择，用 Enter 键（回车键）进行确认。

可能出现选项，选择第一项 Ubuntu 即可，之后会显示正在检测文件。

等待一段时间，应该可以见到如下界面(暂时无需联网)：

欢迎，在左侧栏选择 Chinese，点击继续。

键盘布局，在左侧栏选择 Chinese，右侧栏选择 Chinese，点击继续。

无线，在下方选择我现在不想链接 Wi-Fi 无线网络，点击继续。

更新和其他软件，选择最小安装，下方两个不勾选，点击继续。

安装类型，其他选项，点击继续。

之后不出意外会看到一个界面，大致为一个表格：

| 设备 | 类型 | 挂载点 | 格式化? | 大小 | 已用 | 已装系统 | | -------------- | ---- | ------ | ------- | -------- | ---- | -------- | | /dev/nvme0n1p0 | ntfs | | | xxxx | xxxx | xxxx | | /dev/nvme0n1p1 | ntfs | | | xxxx | xxxx | xxxx | | /dev/nvme0n1p2 | ntfs | | | xxxx | xxxx | xxxx | | 空闲 | | | | 102400MB | | |

选择这个我们之前建立出来的 102400MB 的空闲，表格的左下角应有一个加号和一个减号，点击加号，会出现窗口“创建分区”，选择逻辑分区，空间起始位置，用于 EFI，大小为 300MB。之后再创建两个分区，其中之一用于交换空间，其他不变，理论来说大小与你的内存大小一致，但是小一些设置个 2GB 也不是问题；其中之一用于 ext4 或者 btrfs，挂载点“/”，占用其他的空间。

以上创建的分区，均在下方选择下方的安装启动器的设备，选择新建的 EFI 对应的设备，并且请注意勾选格式化。之后继续。

配置完毕之后点击现在安装。

您在什么地方，选择上海，点击继续。

您是谁？设置你的姓名、计算机名和用户名，值得一提的是密码可以设置的简短一些，因为在 Ubuntu 后续的操作中会使用 sudo 来获取 root 权限，这个过程需要输入密码，而 sudo 在你使用 Ubuntu 的时候经常出现。

重启你的电脑。会显示拔出你的 U 盘，拔出，然后按下 Enter 回车键。
重启之后不会像之前一样直接进入 Windows 界面，而是进入 Grub 界面，也就是一个黑色的看上去很简陋的纯文字界面，在左上角会显示 Ubuntu 和 Windows 界面，通过上下键可以进行选择，按 Enter 回车键确定，此处选择 Ubuntu。

更换软件源与语言

软件源

Ubuntu 使用 apt 进行包管理。所谓包管理，读者可以简单理解为使用一种统一管理软件包的方式，统筹一切的依赖内容，并且构建依赖之间的依赖关系。当然，这种关系使得存在一个远程仓库，存有全部的 Ubuntu 的软件包，并且可以方便的下载安装。Ubuntu 的官方源是其中之一，而同时不少的开源组织对 Ubuntu 的软件源进行了克隆，以方便各个地区的使用者进行更加快捷的访问。

在中国大陆，因为网络访问的问题，使用 Ubuntu 的官方源往往不太容易，因此更换软件源是一个必要的选择。

点击左下角呼出应用列表，点击软件与更新：

在“下载自”中选择中国的服务器，在这里使用中科大源，读者也可以使用其他源，然而需要注意的是，一些源在后续已经停止维护，使用这些源可能在安装软件包的时候引发问题。

之后点击关闭，在弹出的窗口中点击“重新载入”，并进行耐心等待，过程中可能要求输入密码，即前面设置的密码。

之后使用 ctrl + alt + t 打开终端，此时可以输入指令：

sudo apt update
sudo apt upgrade

可以对全部的安装的软件包进行更新。

语言

尽管我们在安装的过程中要求读者安装中文，但是实际上，因为众所周知的语言支持问题，大多数的非英文的路径是不被推荐的，正如读者见到的系统中的若干默认文件夹，如 下载 而非 Downloads。安装中文只是因为中文输入法的安装在英文环境中较为困难，因此此时需要换回英文：

点击左上角，选择设置，点击区域和语言：

之后重启，可以在终端中输入：

reboot

再次进入系统的时候，可以发现弹窗，选择 Update Names：

Ubuntu基本终端操作

简单介绍一些 Ubuntu 命令行操作，其他的内容可以由读者自行探索。

sudo

在一切的指令前面添加sudo意味着使其获得根权限，即最高权限。使用sudo之后需要输入密码，假如在同一终端内连续使用sudo只需要第一次输入密码。

ls

输入之后可以查看当前文件夹下的内容。

mv、cp与rm

即 move、copy 与 remove，移动、拷贝与删除。这三条指令分别用法为 mv/cp <source_path> <target_path> 以及 rm <target_path> ，值得一提的是假如要修改一些根目录下的内容，这些语句需要加上sudo前缀。

mkdir、gedit、torch 与 vim

mkdir <folder_name> 用于创建文件夹；touch <file.filetype> 用于创建文件，需要写上后缀；gedit <filename> 与 vim <filename> 是两种文件编辑器，其中 gedit 的界面更加适合新手使用，而 vim 则有一套自己的操作方法，需要系统的学习，建议学习之后再使用，别乱点。

chmod

chmod 一般用于修改文件的读写运行权限，其中读写与运行用二进制写出，并且分为三个用户组，大致如下：

使用修改文件权限的执行，必须要在根权限下才可以执行，虽然说有如此多的内容，但是一般来说，使用 chmod 只会使用 chmod 777 文件名，也就是将该文件的权限完全开放，或者使用 chmod +x 文件名，也就是将这个文件添加可执行权限。

后续安排

后续会发布单独的任务书进行后续环境搭建的任务讲解与教程，读者可以先行尝试，但需要注意的是，自行安装的环境可能无法与后续任务要求的对齐，此时需要读者自行解决。

额外

一些特殊的情况在这里说明，如奇怪的报错，这里给出一些可能的解决方案。

安装显卡驱动

在安装的过程中，可能会出现屏幕的黑屏/花屏等情况，此为正常现象，需要安装显卡驱动等。此 Bug 情况需要在两个步骤分别进行操作：

在 Ventoy 选择 Boot in normal mode 之后，选择 Ubuntu (safe graphics) 而非 Ubuntu。

在安装完系统之后，在确认已经完成换源等操作之后，Ctrl + Alt + t 进入终端，并执行：

sudo apt update
sudo ubuntu-drivers autoinstall

安装完毕之后重启，reboot。

周记 Week8

Sun, 01 Sep 2024 00:00:00 GMT

序言

实际上是直到今天，我才写完上周的周记，其实一直以来我都有些惶恐，生怕这个周记落下一周。一方面会遗忘一些经历的事情；另一方面，周记是我坚持写博客的一种象征，我生怕不写周记之后，下一个就轮到博客了，还好赶上了，也没有留太多的债。

这一周经历的事情其实也不算多，基本上还是四平八稳的在实验室里做东西，同时也在学新的知识。事实证明学习还是永无止境的，个人感觉我目前的水平距离真正的高手还有很大的距离，只能说尚需努力吧，确实是还有很长的路要走。

学业

还是简单说一下学业的情况，西交那边的课题组 Sanping Zhou 老师问起来进度的问题，所以说又推进了一下 ICLR 的论文进度。基本上性能可以说还算乐观，一些地方没有特别大的突破，但是故事还是很能讲下去的。现在把 Introduction 写完了，后续可能要再推几个公式，然后写一下方法部分。

目前的计划可以说是，先把整体的论文的思路打通，这样子可以搞清楚需要多少实验，随后就可以并行跑实验以及继续打磨论文。老师给的建议是做一个自顶向下的故事线，而本身的故事没有什么大问题，不过这些东西都可以放在后面再说，先写方法跑实验吧，走一步看一步。

在周老师这边的科研还是令我很有感触的，基本上有两件事情。第一件事情是和周老师谈起，我将来会去其他实验室的事，其实这肯定也是必然了，老师心里也清楚。我隐隐向老师说，将来可能会看一下其他的国内比较好的实验室，并且举例了 shailab 以及叉院，老师的第一反应居然不是问我的课题怎么办，或者一些劝说云云，而直接脱口而出的事可以给我写推荐信。回顾大二参与科研的这段时间，老师给我带来帮助不可谓不多，无论是和老师进行一些讨论，还是在论文方面接受指导，又或者是老师拜托其他师兄来帮助，这些事情确实没齿难忘。另一件事情就是在周日的组会上进行汇报，我去讲一些我的工作进度，以及将来的规划，可以说已经是井井有条了，相较于刚刚进组时的一窍不通，现在的我确实已经有了长足的长进。这是一年时间之内我的蜕变，那么再过一年会怎么样呢？还请诸君和我一起拭目以待。

另外一边的事情，可以说还是在稳扎稳打的学习新知识，距离彻底成为这方面的高手，还有很长的距离。现在基本可以确定的应该算是将来的方向，可能主要还是在仿真里做一些事情。

然而不得不说的是，确实因为一直以来忙碌于学习，导致一些博客之类的记录，其实没有很勤快了，现在其实基本的方向又一次稳固了下来，每天也是时候分一些时间去做别的有意义的事情。

参观

另外一件可能值得说一说的事情是，实验室里有一位同样是大二的同学，个人感觉能力比我强上很多，来自上交，在周末的时候邀请我去上交参观。

说实话，假如不是别人的邀请，我可能除非保研到了上交，不然应该是不会踏进校园一步的，主要还是因为懒，然而不得不说的是，上交确实是每一个西交学子梦想中的学府。

这次去参观的主要是闵行校区，也可以理解为西交的创新港，属于是在地价稍微便宜一些的地方开设了一个很大的校区。也有必要说明一下，虽然我说两个比较类似，然而闵行校区的附近依然是相对繁华的市区，而创新港真的是港村。

闵行校区可以说是发展的比较完备的校区了，包括说各种图书馆、宿舍区以及教学楼，环境都十分的优美。就论图书馆这一点，虽然说西交的钱学森图书馆具有标志性的形状，然无论是功能性还是空间或者使用体验，明显远远逊色于闵行校区。虽然我不是去图书馆学习的那一类人，但是试想我在那样的环境之下读书，又怎能没有一个好心情呢？

西交假如想在学校的实际上更进一步，基础建设是必不可少的，然而我目前目之所及，却没有见到什么有用的提升。人工智能专业作为钱学森书院的实验班，我们 2022 级住在几乎是学校最差的西十一，没有卫生间，没有阳台，走廊里挂满了潮湿的衣服，一股霉味。要说真的没有装修吗？那倒也冤枉人了。绕着思源活动中心的一圈路被拆了又装，虽然我没从中看出什么改进的地方。倒是我去地下室下楼的时候，有一段时间经常因为下雨，在挖空的路上踩了一脚泥。

开源

又是因为开源的事情，我似乎有必要再次拿出来说一说，只能说大学生中位数的素质之低，实在是超出了我的预期。

首先必须要承认的是，在新生中是有懂得礼貌的佼佼者的，会询问清晰的问题，虚心求教，并且表达感谢。然而似乎是因为大多数人的知识越浅薄，就越不会表达感谢，也可能是因为疏于表达感谢，导致他们的知识浅薄。

这期间又有不少的同学问了我很多的问题，一些是我会的，一些是我不会的。基本上对于全部的问题，我都会尽我所能的回答，或者去找一些我认识的其他同学询问一下，以确保回答的真实性和全面，然而事实上能够收获的感谢依然不多。

与此同时，因为众所周知的原因，假如在简历上有一项不错的开源项目，可以说是一个很好的加分项了。假如读者看过我的自我介绍，应该倒也不难发现，我做过一个技术力不是很强，但是功能性还好的网站，cs-baoyan-ddl，因为确实切中了一些痛点，获得了 100+ 的 star。然而最近遇到了一些抽象事情，已经有人盯上了这个项目，通过很水的贡献，想要把这个项目加入自己的简历。

我对一些开源的事业带有一种敬畏感，尤其是这种不大的分享，我认为更是需要远离获利这一概念，包括在绿群中成为管理员也是如此。在绿群中，我确实收获了很多友谊，也涨了很多见识，但是自认为和我在其中付出的时间/给出的帮助/做出的贡献相比，或许还是后者更多一些，不过帮助他人确实是一件美好的事情，我也获得过很多其他人的帮助，解决了一些棘手的难题，因此我倒也乐于做这件事。

绿群作为一个非商业的交流群，无论是群主还是管理员，都没有进行任何的收费行为（为了维持QQ群的建立，每年的缴费需要大家众筹，但这完全不是管理员的报酬，而是建立大群需要对QQ进行的支付），我们自然也不希望任何的成员在其中进行打广告，然而确实有这样的成员存在，打着类似于收费保研辅导一样的幌子，在里面招摇撞骗。

当然更加过分的是，同一个人，也私聊过我，说想对我的 cs-baoyan-ddl 进行贡献。

我在之前关于 GitHub Actions 的博客中大概聊过这个项目是如何运作的，本质上通过一个仓库管理数据库，另一个仓库作为前端来运行一个网页，数据的同步通过定期的 Actions 执行，基本上是可以满足需求的。

在此基础上，我为了更好的维护这个数据库，增加了一套通过 GitHub Issues 来提交数据的方案，具体来说你只需要创建一个 issue 并且 close 掉，只要 issue 中的内容符合规范，就会被自动提交为 json 来储存，甚至可以给院校自动打 tag，基本上不到 1 分钟就可以提交一条数据，更何况数据是从绿群的大文档里面直接拿的，只是大文档不太格式化，所以暂时是手动将其转换为格式化信息。

这位群 u 直接直言不讳，告诉我想要攒一些 GitHub 贡献，然后一晚上提交了四个 issue，有两个不能用，剩下两个，我要进行的修改，效率还不如我从头自己做一遍。当时等待提交的信息大概三四十条，是我一个人提交完的。

当然，之后和一些认识的朋友聊了这件事情，倒也有些释怀了，这个世界上的物种多样性还是很多的，在计算机领域尤其如此。我可以说我是一个一般的内容产出者，但是还算比较积极，不过确实有很多人既不产出内容，还想将功劳占为己有。先让他们占去吧，不属于自己的东西，永远不会属于自己，不说项目是如何搭建起来的，在面试的时候一旦被提问，含金量自然原形毕露。

我自己的路，可以说还是自己选择的，既然选择了帮助其他人，索性做一些自己力所能及的事情，也不会就此停下来，但最近无论是学习还是其他，确实道也令我心身俱疲。不说需要停下来休息一会儿，但碰到这些烦心事，却免不了更加烦心，必须要写下来发发牢骚，倒是可能传递给读者一些负能量了。

一种优化后的免费图床解决方案

Sun, 25 Aug 2024 00:00:00 GMT

前言

最近在写博客的时候，发现图片上传的问题。由于博客使用的是 GitHub Pages，而 GitHub Pages 的图片上传收到访问速度的限制，因此需要寻找一种更好的解决方案。事实上，不只是图片，本身的博客依然有一定的体积，所以说找到一种很好的替代方案是很不错的。更何况把什么东西都扔到博客的仓库中，也太重了。我之前可能加上图片，博客已经将近 200 MB，而现在优化之后，只剩下了 1.4 MB。

图床现状

所以说就不得不说一下目前图床的现状了，无外乎就是付费以及免费的图床，一方面我都已经用 Github Pages 了，肯定还是尽可能寻求免费的解决方案，但是这种图床要不然十分不稳定，而且国内的连接情况不一定好，要不然可能直接就不支持 NSFW 内容。

虽然本博客并非什么奇奇怪怪的系统，但是依然可能上传一些本人的图片等，会被检测为 NSFW，这为我带来了极大的困扰，那么有没有一种方案呢？答案是有的，那就是使用 Github。

我们都知道，在把资源上传到 Github 之后，可以使用 Github 的 raw.githubusercontent.com 来访问这些资源，然而 Github 因为众所周知的原因，网速时有时无，很难指望作为一个稳定的图片存储源，而且操作起来也不是很直观。

解决方案

在进行了广泛的调研以及寻找之后，我找到了我的初步答案：PicX，网址是 https://picx.xpoet.cn/。PicX 是一个开源的图床工具，它可以可视化地进行图片的上传，虽然说本质上还是需要使用 Github 来存储图片，但是它提供了很多方便的功能，且不说做了一个网页这件事就已经神中神，其更是提供了自动转换 webp 压缩的选项。

在这里介绍一下 webp，这种有损压缩的格式，压缩的性能十分离谱，一张可能好几 MB 的图片，在压缩之后只有几百 kb 或者更少，这一点在二次元图片（一般被用作博客文章的封面或者头图）上面更为明显，提供了十分离谱的压缩效率，而相应地，其压缩后的图片质量也并不差，几乎看不出区别。因此，使用 webp 格式来存储图片，可以极大地减少博客的体积，同时，由于 webp 格式的图片体积小，加载速度也会更快。

PicX 本身有提供 Github 的图床方案或者一些不是很快的 cdn，但是事实上，虽然使用 webp 可以加快速度，但是并不是那么的理想，而且这个服务不是来自国内，所以还有优化的空间。

这时候就不难想到 vercel 了，因为部署过博客，而且博客就是在 vercel 运行的，因此我之前就知道 vercel 具有一个在国内的 CNAME 服务器，于是不难给 vercel 加上 vercel。

首先我们需要有一个域名，在这里直接使用 namesilo，比较老牌，而且可以支付宝支付。这里面购买就暂且不提了。

然后前往 cloudflare 来获取 DNS 解析以及更多更强大的功能，进入 dashbroad 选择 Add a domain：

接下来输入你的域名，这里以一个不存在的域名为例：

遗憾选择 Free 方案，毕竟是免费的解决方案：

接下来添加一个 A，选择 vercel 的地址 76.223.126.88 或者 76.76.21.98，然后名称写 @，点击保存。

接下来它要求你更改的 NameServer：

并给出 NameServer：

之后就可以前往 namesilo 管理域名，在 My Account -> Domain Manager -> axi404.top -> NameServers 删掉原来的东西，并且添加这些。

之后回到 cloudflare，在快速入门中把 https 重写啥的都打开。

在 SSL/TLS 中选择完全或者完全（严格），否则会因为证书不匹配导致反复重定向而打不开网页：

接下来可以前往 vercel，登录你的 Github 账号。PicX 会给你注册一个 picx-images-hosting 的仓库，在这个里面安装 vercel。Import 之后进入 Settings -> Domains，这边就会提示你使用你添加的域名，比如说 pic.axi404.top，之后点击 add。

再回到 cloudflare，在 DNS 中添加一条 CNAME 记录，在我的例子中 name 为 pic，内容为 cname-china.vercel-dns.com，保存，即可。

此时整个的方案就结束了，你在 PicX 上面上传图片部署网站之后，Vercel 会自动更新，同时你的图床访问图片的方法，类似于 https://pic.axi404.top/image.webp，速度很快，完结撒花。

周记 Week7

Sun, 25 Aug 2024 00:00:00 GMT

所以说，这其实又是一次久违的周记，一方面确实上一周的事情很忙，没什么时间去写东西。假如有读者关注我的 RSS，不难发现，基本上都是大段内容的 Isaac Sim 分享，说白了也就是和科研紧密相关的技能的学习。

我大概是周三来的上海人工智能实验室，然后周四入职，按照写周记的这天算，大概也一个星期了。这段时间基本上就是醒了学，然后累了就睡。

说起来由于签了保密协议，所以其实做的一些事情和安排是不能说的，虽然听说没有过因为随手记录所以被惩罚的事例，但是毕竟按照我的计划来说，将来的很长一段时间都要在这边实习，所以还是小心使得万年船。在这里也立一个标准，以后相关的事情，只说自己学了什么，学了多久，不说干了什么，任务一类的一律不谈，直到产出为止。当然，我的一些学习分享的东西也会继续更新，这并不矛盾，或者说课题组里面貌似相关的东西也正好需要积累，那么何乐而不为呢？

学业

因为这一周发生的事情确实比较少，我也就不分条来概述了。这周的前半段的话是比较急的搞了一下签证，然后就坐火车来了上海，路上倒是没有发生什么事情。相较于回西安的时候买的是坐票，去上海还是稍微阔绰了一把，所以买了卧铺，个人感觉是硬卧的价格，虽然比不上软卧，但是貌似比我之前见过的那些卧铺要好很多，而且也很干净。来了这边之后住的也还不错，属于是酒店公寓了，和酒店一样，通勤骑车二十分钟。

学习上的事情，我愿称之为三板斧，也就是三个很重要的事情。一个是要补考，之前复变函数缓考了，需要补，大概率还需要复习一下，毕竟我的记忆力只取决于平时的练习，所以还需要找回一下感觉；一个事情是本校那边的科研，因为打算投 ICLR，所以论文的工作现在就要开始了，也是要好好准备一下的；一个事情是上海这边的实习，目前的任务依然存在，而且还挺多。

这个星期其实有一点久违的感觉，或者说这个假期至少没有荒废。之前的放假，总是会夹杂着一些自我感动，类似于自己平时已经那么努力了，假期休息一会儿也无所谓，然后就刷着没有营养的视频，又荒废了时间。现在来说确实好了不少，虽然说在假期前给自己定的 DDL 基本上一个也没有完成，但是参加科研实习，并且期间也收获了很多人的认可，也算是一件宽慰了。

其实一直以来我都有一种暗自的自满，认为自己至少和同龄人相比，已经是很有水平了，但是实际上来了这边之后才发现，确实是强中更有强中手。一方面，比如说在绿群，可能我的水平已经算是很高了，甚至说西交的学历已经可以让我挺起胸膛，然而在目前的小组中，不说是科研经历，就连学历也已经成为垫底的了。

有的时候我也想要提前向前看一步，类似于比我大一岁的人，我一年之后能不能超过他们，对于一些很厉害的人来说，我觉得只要足够努力还是有希望的，然而确实有的人我已经难以望其项背，也算是一种警醒，还需要继续高强度学习。

基础来说，这一周学的东西还是很多的，后续能够放出来的，我也都会在博客中给出，算是一种积累和量化，顺便也给后来者一些力所能及的帮助吧。

聚餐

这个星期做的另一件事情，我觉得值得一提的，应该就是所谓的聚餐，或者说面基了。之前一直以来都是在线上和大家聊天，但是其实线下基本上都是和大家没有接触的，而和具有能力的人交流确实是一件愉快的事情，而且也可以增长自己的见识，再加上环境的改变，这种事情一定会越来越多。

这周三也是受到了群友 Selen 的邀请，他和我以及谢老师三个人一起吃了个饭，然后晚上在太古里那边散步聊天。Selen 和我同样是大二升大三，谢老师是大三升大四，他们两个人都是西电的我们三个也可以说很有共同话题了。

Selen 属于接触科研比较早的那一批，只是可能收运气或者什么原因，暂时还没有 publication，而谢老师是没有套瓷就进了清华的叉院和 AI 的人物，可以说不只是排名很好，而且科研能力远超于一般人，甚至让我将一年内的目标，可能就确定为想要到达他那种水平。

互相交流的时候，因为我们也不太打游戏（虽然说我之前还有打游戏，但是如今可能也比较少了，唯一算是有的可能是碧蓝航线，然而用了 alas 之后可能几天都不用上去一次），一方面可能聊聊科研，一方面可能就是一些吐槽了。

大家其实比较有共识的一点在于，西安确实想要发展是比较困难的，一方面高校虽然有，而且也算比较顶级，但是明显资源不多，而且内陆的企业也不算很多，基本肯来这种地方，假如是商业目的，实在是不如沿海城市。尤其是做人工智能，目前的一些领域里面，可能线下的实习会更加合适，而做出有影响力的工作又十分依靠资源和算力，因此在西安发展的自然也就举步维艰了。

另一方面，被大家广泛吐槽的是，也就是学习和开源氛围了。讲实话，无论是西电还是西交，假如就说课内成绩，高手肯定还是很多的。日复一日年复一年的刷题和上课，这一批人又是好不容易卷出来的，能够将前排的绩点卷到一个匪夷所思的程度，自然也就不难理解了。但是尽管，说得好听一些，数学功底和计算机基础十分 solid 的人不在少数，但是在科研上有所长进的其实并不多。

按照我们年级来说，我认为就课内学习而言，比我强的人少说也有七八个，然而就我所知，目前科研进度超过我的应该没有，甚至在人工智能班的历史上，能够和我大概在一个进度的也不算很多。谢老师更是属于提前规划的一批，早在大一就已经去商汤实习，这等前瞻在是令我望尘莫及，而 Selen 则是和我在同一节奏。

不难发现的是有能力的人其实很多，然而大多数人在心态上就已经落后了不少，大概自己从初中高中就养成的做题家的舒适圈中，每天将课内的任务做完之后，以为复习的差不多滴水不漏，就已经知足。至于课外，大家也或多或少都听说过需要在课内的基础上再看看课外，然而依然不愿意自己去打破信息差。有的时候看到某某活动加工时/集体活动分，有的时候是某学生会干部，或者是某大创以及某创新创业竞赛，然后收到了别人的邀请，就义无反顾地投身其中，然而这些有点像是在青春小说里才会成为主要章节的内容，在现实中的功利主义面前实在上不了台面。或许有人说，自己水平可能还不够，也做不了科研，就并不是自己不想，而是不愿意给老师添麻烦。然而试问，这一类人又有没有了解过，有哪个课题组愿意招收课内成绩突出的学生，又有哪些是只要 self-motivated 就可以了。想着自己没有科研经历就不能科研，然而有没有尝试去了解需要学什么，而不是陷入没有科研就不能科研的死循环怪圈。

或许可以说，有些人能力够了，但是心态还不够，但是从另一个角度，心态又何尝不是一种能力呢？敢于尝试，遇到事情先想，have a try，而非 give up，或许就能好上很多。

当然，另一个更大的，让我非常有怨言的，也就是关于开源的事情。每一个计算机领域的人或多或少都听说过开源的传说，在 GitHub 上面用过那些炙手可热的工具，也或许有不少人都梦想成为一名开源事业的参与者。当然，从广义上来说，在大学中最常见的开源工作，还是要说学习资料分享和经验分享，将这些可以让自己的学习变好的内容分享出来，何尝不是一种开源的呢？

然而事实上是，无论是国内的大学圈子，还是西交，开源氛围都差到了令人发指的程度。

先谈西交，我无意否认那些学辅，优秀的诸如钱院学辅，一直在产出优秀的内容，然而确实存在不少的学习资料，以思政相关尤甚，为了做到滴水不漏，甚至一本资料上百页。当然，这也并非是在资料中给出了什么崭新的见解或者论述，而只是单纯将书中的大多数内容摘抄了下来。不少的同学只是为了工时，而在这里凑一些字数，有指标在，页数越多工时越多，而又如何做出小而美的开源？

当然，将眼光聚焦在人智专业，开源的资料更是大多数都是上古时期流传的，而如今的内容，我可以说则可能有至少百分之五十是我贡献的，甚至我可以说，绝大部分。

然而这是否说真的不存在开源的分享呢？一些还是有的，我们有 AI 学组，我之前建立过 Obsidian 的仓库，后来又建立过其他仓库去负责 AI 研讨会，到目前为止，PR 依然为 0，然而学组中的人数居然高达九人。

前一段时间，学组又说要办 AI 研讨会，我不禁暗自称奇，且不说大家有没有能力去研讨，这我前些日子搭建出来的 AI 研讨会网站，也在专业群里进行了宣传，到现在还没有一个 PR，现在就想着自立门户了？所谓开源，难不成是创立山门，自立为王，然后等别人来丰富内容？

这一研讨会还自称 NCAI，大概是南洋 AI 研讨会的意思，当时在群里征求意见，我确实一时间气的不行，写了大段的回复：

—-

最基础的问题，Nanyang Conference，这个署名权是否经过允许，钱学森书院并非南洋书院，这个名称是否需要商榷。
科研虽然大家说门槛不高，是否真的不高，假如不是连续的讲座而是单次分享，是否真的可以将受众与深度兼得。
所谓科研工具分享，除了 overleaf 和 chatgpt，科研工具真的存在必须必要而且实用的工具吗？文献整理/笔记/代码/SSH，各种工具我均有体验过，没有一个工具是真正值得推荐的，多半是差生文具多。假如介绍 LaTeX/SSH/conda 等的使用，分享者有多大的把握可以超过一个一概不知但是使用 ChatGPT 的人？教学的质量又有多大可能能超过那些经典的教程？
当下流行的科研，有多少本专业本年级的同学仍沉迷于中文三大会的推文内容？有多少能准确说出当下最流行的几个方向以及其中的代表性工作？即使是炒作的工作，完整的理解公式的内涵而非朗读，又有多少人能做到？在我的印象里，此等人本专业本年级不超过三人。
阅读论文，互联网上如李沐等大佬的视频均有之，分享者有何超越互联网内容的全新见解？假如如此，分享者论文阅读数量是否破百，是否真正了解某一领域的来龙去脉，而非人云亦云？
思维碰撞，最忌讳 idea 抢跑，是否有足够的筛选机制，控制人员的安全性以及君子协定的严密？为什么有 idea 者不在组会分享（有更具经验的人指导，安全，而且假如可行可以提供算力，而研讨会甚至没有人有能力判断可行性），NCAI 有什么吸引力？
开源社区的维护，早在一个多月之前，我已经搭建了 AI 研讨会的 GitHub 组织/仓库/静态网页，https://xjtuaiseminar.github.io/，并在 AI 大群宣传，目前 pr 数量为 0。现如今的本专业甚至本校开源组织者，很大程度只是享受掌管开源社区的权力，而频繁另立山头，参与开源者寥寥无几。一个数据是，我目前维护七八个仓库，今年 commit 超过一千五百次，一个 star 破千，一个 star 破百，大量仓库访问量上万，而 star 不足五十，全部仓库活跃贡献者不超过十人。试问 NCAI 有什么把握可以维护活跃的社区？老实说，工时是西交仅次于大创第二没用的东西，用这种东西鼓励开源者甚至不如 GitHub 的一个 star 或者 follow，换句话说，是一种侮辱。
领导者的选择，且不谈另立山头，一个会议就会有委员会，会有会长，谁能够担当这一职务？选择籍籍无名/学术成果不佳者，何以服众？选择成果累累者，由能用什么来吸引？开源是无偿的，但是不是别人的义务。
举办会议，制作奖品，经费从何而来？如何管理？部分人自费终究只是部分人的自嗨，规模与影响力均无法扩大，而又没有足够的人手和精力处理一个复杂的经费管理体系。

—-

得到的回复则是乏善可陈：

—-

1.小问题，我也觉得要改，改个名字就行 2.4.实际上我自己的想法是开两种类型，一种是适合小白来学，一种是水平较高的同学互相讨论分享，也许是一种解决办法。 3.5.网上确实有优秀教程，但是自己学习的话动力没那么足，如果我们能够让大家我们紧密联系在一起集中一起学习，也许能够起到更好的效果。这就好比高数等学科，网上也有好的教程，但事实上很多同学还是跟着老师学。甚至我们不需要自己准备教程，对着李沐讲/放视频都行（？此点存疑），可以布置一些小作业/课上内容问答以活跃气氛等（但是这又是另一个问题，学校众多老师都没解决的课堂氛围不活跃、作业无法得到监督的问题，我们又如何解决？） 6.我也想到了这个问题，我认为有必要的时候，我们在分享之前需要向大家强调这一点，可以通过收集人员信息/让他们在保密协议上签字等方法进行约束，如果有人就是什么都不管抢跑了，我们可以找其导师进行反映。如果ta实在什么都不管不顾，我们也没办法，只能希望大家素质还是比较高的。 7.个人想法是如果我们能做出一个影响力较大的组织，那么可以让大家朝我们靠拢。 8.首先我不认同“会有会长”这个概念，相反我们需要的是“组织者”，这在一定程度上可以避免学术成果与组织的矛盾。另外，也完全可以采取集体领导的方式。 9.个人想法是，这个组织不需要多正式，实际上几个人之间的学术讨论确实可以理解成几个人的“自嗨”。

以上是个人从建设性的角度针对上述问题提出的一些办法，不一定成熟且合理，只是在尝试着提出一些方法。以上不是何的意见，也不代表我反对高的意见（事实上相当多部分我是认同的）。其实问题大家或多或少都看在眼里，不过想办法解决总是对的。

下面是个人的一些意见：实际上虽然这件事做成了会是极好的一件事，但基于学校/专业目前的氛围，我对前景有些担忧。比如，且不提开源精神，我相信有些人github也不一定有。我个人希望能够做到的（如果能做到），是给众多科研门外的小白提供一个入门的机会。诚然网络上教程相当多，但是如果对科研一点研究都没有的小白/其他专业的同学，他们根本都不知道这些资源、不知道去哪里找，甚至没有意识到科研这件事，那从何而来入门呢？

我为什么那么关注科研小白，是因为两个原因。首先只有厚植土壤，形成良好的氛围，才能枝繁叶茂；其次，这类群体是最广大的群体，也是众多人群的最大公约数，我们想要做出有影响力的事情，我认为是应该面向他们起步的。以上。

—-

这段话可以说是离奇至极，乍一看是冠冕堂皇的理想主义，但是细品之下却只有混乱的逻辑。一边说要帮助更多人，一边说是小部分人的自嗨，还说做开源，无论是研讨会还是之前的学组，又有多少人真正参与其中呢？现如今又是哪里来的把握，说自己一定可以再创辉煌。

更何况做这种分享，搞一些网站也好，文章也罢，又或者是制作视频，完全是更好的载体，所谓的研讨会，也只不过是希望别人作为忠实的听众，给自己在台上侃侃而谈提供了一个平台。

再回复，则是：

—-

不妨说的再不客气一些：

NCAI 对于水平高的同学有什么吸引力，有这个时间为什么不多看看自己的文章，写写代码，写写论文？而真正能参与理解和讨论，并非争论 Mamba out 或者 KAN 的 unfair 的人能有几位？
NCAI 能办成有影响力的 xxx，事实上叙述已经前后矛盾，前面期待有影响力，后面又不指望多正式，那么这个组织的定位到底是什么？
上课的课上问答和作业有谁喜欢？谁会愿意去多上一节课？徒增压力的事情对于每一个人都没有好处。在听说有作业之后，每一个本来有兴趣的小白都会放弃尝试。
只是看视频或者寻找教程，大家又知道多少教程？不到一页 A4 规格 PDF 可以写完的内容，为什么还要开始讨论？
和不同领域的人讨论，到底能有多少收获？假如说大家从跨领域的知识中可以获得理解，参加人机所之夏之后，是否有人受到启发已经开始写新论文了？假如大家没有参加人机所之夏，为什么又有把握参加 NCAI？假如说和同领域的人讨论，为什么不和同组的师兄交流？
再说君子协定，到头来只能寄希望于每个人的素质/没有办法，而课题组几乎可以百分百确保这件事情不会发生，一个高风险低回报（不同领域的反馈），一个低风险高回报（同领域专家的反馈），为什么要分享？

个人建议，假如大家真的想做这种交流与分享，可以先录制教学视频，制作文档，上传 B 站并搭建静态网页，并且在各种群中宣传，参与视频录制的人数以及播放量会告诉你答案。

顺便，想要了解每个人的科研情况的话，不妨尝试建立以下的问卷，看看大家的科研到底到了什么阶段：

会使用 slrum
会使用 huggingface
处理过至少百万量级的数据集（处理，并非使用）
阅读过超过 50 篇论文
阅读过超过 100 篇论文
主持过一项自己的课题（科研课题，非大创/腾飞杯）
参与过超过三项课题（科研课题，非大创/腾飞杯）
具有顶会一作的中稿（与前面的可以合计两分）
在外校或者企业进行科研实习
在港三/新二/美的顶尖学校进行科研实习（与前面的可以合计两分）

以上内容各加一分。

正在主动参与一个大创项目
正在使用非 Pytorch 的基础框架，或不会使用 Pytorch
看过 KAN/xLSTM 等炒作工作，但是没听说过 RWKV
只知道 CV 三大会，不知道机器学习三大会是什么
不知道如何在服务器维护一个训练的线程，而不会在关闭的时候被 Kill
没有使用过 GPT4（并非免费的 4o）

以上内容减一分

目前本专业本年级的同学大于等于 3 分的能有三位吗？

当然，假如需要写文档或者录制视频，我肯定是会积极参与的，然而有必要提及的是，本人的另一项目，AI 自学指南，https://aidiy.icu/，同样为 0 PR。

—-

当然，我也并非说我的项目如此优秀，每个人都必须给我 PR，然而纵使我投入精力最多的西安交大生存指南，上万的访问量，却不足二十 star，也只有 2 PR，大多数人只是看，成为资料的收集者，并认为别人回答自己的问题是天经地义。不说满足提问的智慧，就连谢谢也不到 50%。

我做了很多的项目，然而很少有人能够给出任何程度的反馈，而且我确信这些内容或许是有意义的，因为在我在网上的大量检索过程中，并没有发现同质项，然而本专业的一些同学却依然在热衷于挖新坑，等待别人去填，实在是令人难以接受。

这实在是令人沮丧的，更不用说全国范围内，前不久也有同学来找到我，说想要参与 cs-baoyan-ddl 的项目，然而我制作的 workflow 可以通过 issue 直接更新数据库，并且 tag 也可以自己添加，更新一个学校不到一分钟。半天过后，我看到四个 issue，然后亲自把它们更改成了符合格式的样子，至于这个项目，按照他的话来说，“我想攒个 GitHub 的提交”，说不定已经进了自己的项目经历。

好吧，一时间我实在不知道该说些什么，只是失语了，要是真的想帮助别人，之前写资料的时候大家又在哪里，现在怎么又只是热衷于提案/幻想/一触即走？

这是这周的一些事情，权且当作牢骚和抱怨吧，开源的氛围和环境，这是一个长线的事情，我也早就不应该抱有过多的期望，每一届能有一两个人，或许我就应该要知足了，但至于我的路，暂且行一步看一步吧，希望能够在帮助别人这件事上走得更远。

VitePress 贡献指南 & 建站指南

Fri, 23 Aug 2024 00:00:00 GMT

import { Aside } from 'astro-pure/user'

前言

惯例的写一下前言，关于为什么要写这篇内容，以及这篇内容的主旨是什么。

笔者最近开设了几个 VitePress 项目的网站，并且作为开源项目，开放给社区以及每一个人。毫无疑问，诸如 VitePress 类型的静态网页生成器，是一种极大的对于创作的便利，使得创作者无需关注于网站的构建，只需要专注于内容的创作。但是对于完全没有互联网基础的同学来说，这种内容甚至也已经超纲了，我们迫切需要一种类似于 Word 或者说 Markdown 编辑器这样子的开箱即得的记录方式，使得最不了解技术的创作者也可以尽情的创作。

事实上这种内容是存在的，使用前后端的博客可以很轻易的达到这种效果，但是明显，目前因为种种原因而选择使用 VitePress 之后，一个为不了解技术的同学设计的 VitePress 贡献指南是有必要的，这可以帮助读者了解 VitePress 的基本结构，并且可以快速上手，对于 VitePress 项目进行贡献。

什么是 VitePress

VitePress 是一个基于 Vite 的静态网页生成器，它使用 Vue 作为其核心，并使用 Markdown 作为其内容格式。VitePress 的主要目标是提供一个简单而高效的方式来创建和维护静态网站，同时提供丰富的插件和主题来满足不同用户的需求。

换句话来说，使用 VitePress，可以很轻易地通过 Markdown 格式的内容生成精美的静态网页，因此是很好的百科/博客类内容的载体。

项目结构

了解 VitePress 的项目结构是为 VitePress 做贡献的基本事项，一般来说，VitePress 的结构为：

├───.github
├───docs
│   ├───.vitepress
│   │   ├───cache
│   │   └───theme
│   ├───images
│   ├───public
│   ├───folders
│   └───index.md
├───node_modules
├───.gitignore
├───package.json
├───pnpm-lock.yaml
└───tsconfig.json

对于贡献者来说，仅需要关注 docs 文件夹即可，docs 文件夹下包含了 VitePress 的配置文件，以及所有的 Markdown 文件。其中作为初级的贡献者，需要了解的是 docs 中的若干文件夹，并且对于新建的文档按照以下的步骤，在这里以项目 SurviveXJTU 为例。

贡献流程

关于从注册 Github 以及初始化 Git 开始的贡献流程，在 SurviveXJTU的贡献指南中有具富文本与插图版本的说明，在这里给出转载。

注册 Github 账号

作为贡献者，首先需要注册 Github 账号，这一步十分的简单，前往 Github 官网并点击 Sign Up，根据要求进行注册即可，在这里并不进行过多的讲解。

初始化本地 Git 并配置 SSH

在 Git 官网选择下载 Windows 版本并按照提示进行安装。

在安装中需要注意的是：

在 Select Components 中选择 Git LFS，按需求安装其他组件。
在 Adjusting the name of the initial branch in new repositories 中可以选择 Override the default branch name for new repositories 并将主分支命名为 main（貌似是因为原默认名称 master 涉及种族歧视，如今 Github 默认分支为 main，最好保持一致）。
在 Adjusting your PATH environment 中选择 Recommended 的选项。
其他内容选择默认选项即可，或者在互联网进行查询。

安装之后首先设置 Git 的基本信息：

git config --global user.name "Your Name"
git config --global user.email "Your Email"

之后需要配置 SSH，首先需要检查是否已经存在 SSH 密钥，如果存在则跳过此步骤，否则需要进行创建：

ssh-keygen -t ed25519 -C "Your Email"
# 或者使用 ssh-keygen -t rsa -C "Your Email"
cat ~/.ssh/id_ed25519.pub
# cat ~/.ssh/id_rsa.pub

将生成的密钥复制到 Github 中的 Settings 中的 SSH and GPG keys 中的 New SSH key 并粘贴。

此时本地理论上已经可以进行 Git 的 push 等操作到远程储存库了。

Fork 本仓库

进入本仓库的 Github 主页，点击 Fork 按钮，即可将本仓库 Fork 到自己的 Github 账号下。

Fork 操作本质上是复制了一份本仓库到自己的账号下，并在自己的账号下享有修改的权限，同时可以比较自己账号下的仓库与上游仓库之间的更改差别，Fork后的仓库可以在自己账号的 Repositories 中看到。

克隆仓库

在 Fork 完成之后，在自己 Fork 的仓库中，找到并点击 < > Code 按钮，之后点击 SSH 按钮，并复制链接。

在本地找到适合保存本项目的文件夹，右键资源管理器，点击 在终端中打开，并进行克隆操作。

git clone your_ssh

The authenticity of host 'github.com (xxx.xxx.xxx.xxx)' can't be established.
xxxxxxx key fingerprint is sHA256:xxx.
This key is not known by any other names.
Are you sure you want continue connecting(yes/no/[fingerprint])?

需要明确输入 yes 并回车，否则无法正确建立连接。

仓库文件结构

在克隆完成之后，可以使用 VSCode 等编辑器打开文件夹并进行编辑，其中首先需要了解的是文件的结构：

├───.github
├───docs
│   ├───.vitepress
│   │   ├───cache
│   │   └───theme
│   ├───images
│   ├───public
│   ├───folders
│   └───index.md
├───node_modules
├───.gitignore
├───package.json
├───pnpm-lock.yaml
└───tsconfig.json

其中例如 .gitignore, package.json, pnpm-lock.yaml, tsconfig.json 均为 Git 以及 Node.js 的相关配置文件，无需过于调整。docs 文档中包含 .vitepress 内容，此为 VitePress 的配置文件所在的文件夹，而其他的文件夹则按照文档的组织进行排序，其中本项目中全部的图片均维护在 images 文件夹中，而 logo 等资源则维护在 public 文件夹中。

撰写文档

在了解了文件结构之后便可以开始撰写文档了，确认自己想要撰写的文档所隶属于的类别，并进入该文件夹，新建一个 Markdown 文档，按照 Markdown 文档的语法进行撰写。

与此同时值得注意的是，VitePress 支持部分的 Markdown 拓展语法，这些内容可以在官方文档中查阅。

撰写文档之后进行保存即可。在这里需要注明的是，在 VitePress 中使用图片的插入，所使用的相对路径是相对于 Markdown 文档本身的相对路径，而非相对于项目根目录的相对路径。

修改 Sidebar

SurviveXJTU 的侧边栏使用人为的创建形式，这是为了更大限度的排版布局自由度，有的时候不同章节之间的内容，在写作的过程中存在顺序之分，而使用如 vitepress-sidebar 等插件自动生成 Sidebar 虽然快捷，但是很可能导致内容按照如字典序等方式进行排序，从而无法更好的符合写作者的意愿。

前往 docs/.vitepress/config.mts 中，可以在找到如下文所示内容，以下以其中的人生篇为例：

export default defineConfig({
    ...
    themeConfig:{
        sidebar: [
            {
                text: '人生篇',
                link: '/人生篇/',
                collapsed: true,
                items: [ // [!code focus]
                    ... // [!code focus]
                    { text: '关于西交', link: '/人生篇/关于西交' }, // [!code focus]
                    { text: '开源精神', link: '/人生篇/开源精神' }, // [!code focus]
                ] // [!code focus]
            }
        ]
    }

})

在其中找到你想要插入的位置，VitePress 会根据 items 中的顺序来排列 Sidebar，例如贡献者创建了文档 人生思考，并认为在排版布局中应位于 关于西交 与 开源精神 之间，则加入一行即可：

export default defineConfig({
    ...
    themeConfig:{
        sidebar: [
            {
                text: '人生篇',
                link: '/人生篇/',
                collapsed: true,
                items: [ // [!code focus]
                    ... // [!code focus]
                    { text: '关于西交', link: '/人生篇/关于西交' }, // [!code focus]
                    { text: '人生思考', link: '/人生篇/人生思考'} // [!code ++] // [!code focus]
                    { text: '开源精神', link: '/人生篇/开源精神' }, // [!code focus]
                ] // [!code focus]
            }
        ]
    }

})

提交更改

在完成了文档的修改之后，可以使用 Git 进行更改的提交：

git pull origin main
git add .
git commit -m "your commit message"
git push origin main

之后可以看到自己的更改已经提交到了自己的 Github 仓库中。

发起 Pull Request

假如说进行了成功的提交，可以注意到，自己的仓库中应显示如 1 commit ahead of 的字样。点击 Contribute 并点击 Open pull request 即可发起一个 Pull Request，并等待管理员进行审核。

请确保 PR 的 title 中表意明确，同时 description 中清晰描述了自己添加的内容，之后点击 Create pull request 即可，管理员在收到内容之后会进行审查并给出 comment 或直接将你的 PR Merge 进主分支，即完成了贡献。

VitePress 快速建站

本文接下来的内容用来讲解如何使用 VitePress 进行快速建站。

安装初始化

首先需要安装 npm，前往 Node.js 的官网进行下载，之后按照指示安装即可，结束之后打开一个终端，输入 node -v 以及 npm -v，会提供 Node.js 以及 npm 的版本号，说明安装成功。

接下来转用 pnpm，更加好用的包管理器：

npm install -g pnpm

然后使用 pnpm 安装 VitePress，新建文件夹，在目录下打开终端：

pnpm add -D vitepress

之后使用 VitePress 提供的快速初始化工具：

pnpm vitepress init

在初始化的过程中，进行以下的选择：

┌  Welcome to VitePress!
│
◇  Where should VitePress initialize the config?
│  ./docs
│
◇  Site title:
│  My Awesome Project
│
◇  Site description:
│  A VitePress Site
│
◇  Theme:
│  Default Theme + Customization
│
◇  Use TypeScript for config and theme files?
│  Yes
│
◆  Add VitePress npm scripts to package.json?
│  Yes
└

之后执行 pnpm run docs:dev 即可在本地启动 VitePress 并进行预览。

Github 部署

在本地预览没有问题之后，就可以进行 Github 部署了，首先需要新建一个仓库，例如 Example，然后在 docs/.vitepress/config.mts 中添加如下内容：

export default defineConfig({
    ...,
    base: '/Example/' // 若仓库为 username.github.io，则 base 为 /
})

与仓库建立链接（详细方法见本人关于 Git 的博客）之后，在根目录下创建一个 .github/workflows/deploy.yml

# 构建 VitePress 站点并将其部署到 GitHub Pages 的示例工作流程
#
name: Deploy VitePress site to Pages

on:
  # 在针对 `main` 分支的推送上运行。如果你
  # 使用 `master` 分支作为默认分支，请将其更改为 `master`
  push:
    branches: [main]

  # 允许你从 Actions 选项卡手动运行此工作流程
  workflow_dispatch:

# 设置 GITHUB_TOKEN 的权限，以允许部署到 GitHub Pages
permissions:
  contents: read
  pages: write
  id-token: write

# 只允许同时进行一次部署，跳过正在运行和最新队列之间的运行队列
# 但是，不要取消正在进行的运行，因为我们希望允许这些生产部署完成
concurrency:
  group: pages
  cancel-in-progress: false

jobs:
  # 构建工作
  build:
    runs-on: ubuntu-latest
    steps:
      - name: Checkout
        uses: actions/checkout@v4
        with:
          fetch-depth: 0 # 如果未启用 lastUpdated，则不需要
      - uses: pnpm/action-setup@v4
        with:
          version: latest
      - name: Setup Node
        uses: actions/setup-node@v4
        with:
          node-version: 18
          cache: pnpm # 或 pnpm / yarn
      - name: Setup Pages
        uses: actions/configure-pages@v4
      - name: Install dependencies
        run: pnpm install # 或 pnpm install / yarn install / bun install
      - name: Build with VitePress
        run: pnpm docs:build # 或 pnpm docs:build / yarn docs:build / bun run docs:build
      - name: Upload artifact
        uses: actions/upload-pages-artifact@v3
        with:
          path: docs/.vitepress/dist

  # 部署工作
  deploy:
    environment:
      name: github-pages
      url: ${{ steps.deployment.outputs.page_url }}
    needs: build
    runs-on: ubuntu-latest
    name: Deploy
    steps:
      - name: Deploy to GitHub Pages
        id: deployment
        uses: actions/deploy-pages@v4

在 Github 仓库中，找到 Settings -> Pages -> Build and deployment -> Source，选择 Github Actions，之后进行：

git add .
git commit -m "Initial Commit"
git push origin main

稍等片刻之后即可看到部署成功。

结语

限于篇幅以及内容的设计，本篇内容可能暂时截止于此，更多的内容会在后续选择性地在此处更新，或者新建新的博客进行分享，希望本博客可以帮助读者更好的了解 VitePress 的写作流程，并为相关的开源项目做出更多的贡献。

校园 VPN 连接实录

Fri, 16 Aug 2024 00:00:00 GMT

前言

简单来说，这是一篇成分复杂的文章，阅读到这篇文章的读者，多半并不符合这篇文章所属的条件。简单来说，需要是，你来自西安交大 + 你在校外出差 + 你在校内有跳板机 + 你需要使用校内服务器跑程序，不知道会不会对一些人有帮助。

本人电脑小白一枚，所以使用的方法极有可能绕了远路，而且我没有 sftp 需求，也就懒得研究更加优雅的方式了，欢迎大家在下方评论进行补充。

下载 Easy Connect

学校的 SSH 分为两种，一种是 WebVPN，只能活在浏览器里面，本质上是在一个浏览器里面套了个壳子，在里面访问校内网；另一种是 SSLVPN，通过 SSL/TLS 访问内部资源的方法。

使用 SSLVPN，首先需要前往学校的官网，下载一种叫做 EasyConnect 的玩意，之后打开软件，会卡在一个获取登录配置的地方，在浏览器中进入 sslvpn 的官网，然后在学校账号认证界面登录，就可以成功进入某种内网了，此时可以连接跳板机了。

SSH

之后就可以进行正常的 SSH 了，在这里因为是使用跳板机，对于 C:/Users/user_name/.ssh/config 进行修改：

Host *
    ServerAliveInterval 60
Host jump_server
    HostName host_name
    User user_name
    Port port
    IdentityFile C:/Users/34064/.ssh/serect_key
Host j67
    HostName host_name
    User user_name
    Port port
    ProxyJump jump_server

其中前一个里面是类似组里的跳板机，于是使用组里面提供的地址以及端口和密钥来登录，之后的是正常的服务器，多了一个 ProxyJump 来表示使用跳板机。

之后使用 ssh j67 就可以登录了。

二次 SSH

由于跳板机只有特定端口的转发，而组里的跳板机连接的是一个 4*2080Ti 的服务器，我现在有一个能够用单卡 V100 的服务器，所以说要连接别的服务器。

于是选择了比较愚蠢的方法，因为我当前这个服务器已经在校园网内，约等于我拥有了一个校园网内的终端，那么直接进行二次的 SSH 即可。在这里不得不提到 tmux，确实是十分实用的工具，不仅可以避免自己的程序被没有心跳信号杀死，也可以在一个 SSH 里面多开窗口，可以说十分的方便了。

结语

感觉自己的这一套流程笨笨的，一套操作猛如虎，最后 SSH 确实很卡，毕竟套了好几层，不知道有没有更好的方法。

Updates

事实上发现自己可能确实笨完了，按照我们实验室的手册来说，确实是根据上述的流程才没问题的，但是事实上貌似只要开启了 sslvpn 之后就进入了内网。我使用的 4*2080Ti 的服务器是使用跳板机进行转发的（之前我应该也配置过，但是忘记了），然而假如说是正常的服务器，是不需要进入跳板机之后再二次 SSH 的，直接进行进行 SSH 连接即可，注意关闭自己的 VPN 程序即可。

周记 Week6

Mon, 12 Aug 2024 00:00:00 GMT

尽管做过很多的期待，但是第六周的故事实际上确实枯燥无趣，几乎没什么可说的，不过为了记录生活，还是勉强记录一下吧。

学业

RoboMaster

RM 一直打到周六，最后也算是尘埃落定，虽然没有晋级八强，但是在十六强的时候也赢了一局，也算是破除了之前的魔咒了，姑且也算是队史的最好成绩了。

可以说的是，这一周以来实际上我做的事情不算很多，一方面算法的稳定性确实很不错，另一方面英雄的主要任务确实也不是打前哨站。我在视觉组的组员兼同班同学 LXW 确实在自瞄方面做得很不错，无论是哨兵还是无人机，都是可以推掉前哨站的，而英雄又在吊射方面如此出色，前哨站的任务也就不主要交给英雄了。不过到了后面，自瞄体系的不稳定还是时常发生（指体系，如机械电控等问题导致视觉算法的效果不好，也很有可能），而且也伴随着战术的调整，英雄的反前哨站也就再次被提上日程了。

姑且也算是一种释然吧，最后自己写的东西还算是派上了用场，虽然说最后输了，但是前一天晚上依然查出来电控那边的一个奇怪问题，也算是为后面做了一点技术积累。

其实我也不是很确定自己是不是要继续打下去，但是既然自己已经是组长了，假如说没有人打算接任这个位置的话，大概率还是我继续顶上去。

一些反思也会后续写在 RM 回忆录里面，但是在这里也姑且说一下。事实上今年的视觉组安排的不是特别好，一开始我的想法是，视觉组的任务太无聊了，我希望大家做一些更有意思的东西，甚至说讨论一下学术也是可以的，但是一方面确实任务还是很紧，而且在西交这样一个课内压力大的环境下，本科科研就已经很过分了，更别说在这样一个社团里面，大家聚在一起做一些讨论。

本来我一直想的是，将自瞄这件事情基本上都由我负责，然后我拉进来的同学 LXW 负责协助，这样子两个人压力可以少很多。然而事实上因为上半年深度参与科研的原因，自瞄这部分很显然又出现了去年的情况，LXW 一个人做得太多，导致别人已经无法跟上他在做的东西了（这并不是指算法的困难，工程代码我从未要求过规范性，现在基本上还是以能跑通优先，所以每个人的风格不一样，也就很难看懂），这下压力就到了他那边，而我也就换到英雄反前哨站的工作了。

但是说到底，这一年来我的工作其实还差不多，假如继续连任的话，一方面大三下确实磨不开时间，包括实习的一系列事情，会让我难以参加国赛，然而另一方面，我的重心可能会放在对于代码规范的整理以及文档的编辑中，之前的程序实在是太过于野蛮生长，急需一次收束。从这个赛季的结果上来看，可以说的是，视觉组的全部任务基本都完成了，后续的完善固然可以让这些老队员继续负责，然而我想将之转化为更加规范的工作。现在存在的一些缺陷，其中有部分，我依然有必要怀疑电控的水平（并非专业素养，而是代码中确实存在 corner case），这些都需要后面缓慢的对齐。

如何如何，反正一年的劳作，终于也算是尘埃落定了，用心写的算法拿到了对应的结果，也算是给了那些新队员一个交代。

签证

这个星期另一件在忙的事情就是签证，因为这个事情我确实没有自己做过，尽管现在是和两个师兄一起进行团体签，但是心里确实还是没底，截止到周日晚上，材料也算是准备好了，就是不知道后续具体是不是还会少东西，这里还是要打一个问号。

假如一切顺利的话，我后续应该也会单独写一篇文章来记录一下，对于本校本专业的学生应该是有帮助的，毕竟给我的感触，难点之一固然是材料的繁琐，但是另一大难题，还是在于学院的老师踢皮球，让我无从下手。

科研

这周的 offer 也算是正式发下来了，把一些资料填写了一下，之后也就进了浦江实验室的 oa 流程，车票订的是下个星期二，也就是签证的下一天，然后星期三到，计划是和绿群的群友晚上一起吃个饭（我在考虑是否要赠送女装照作为见面礼），然后第二天去入职。不过需要在这里提醒我自己的是，入职需要的材料最好别忘了，尽量在西安的时候处理完，学校里的打印机还算比较多，不然去了上海之后就麻烦了。

因此，顺便加了老师的飞书，老师也给我分享了文档，让我去读一些文章，基本上来看，老师就是 Yilun Chen 了，老师本身的实力也很强，也算是希望能做一些有影响力的工作吧。不过老师竟然说要讨论一下，可能我还是要看完这些论文，我论文的积累量确实不多，现在还剩下八篇，但是基本上已经轻车熟路了，希望可以按时完成。

在 Sanping Zhou 那边的课题来说，计划是投 ICLR，不过我目前发现了模型的一些问题，可能基础的代码还要再跑一跑，来看看最后的效果，希望没问题。

RoboMaster 回忆录

Sat, 03 Aug 2024 00:00:00 GMT

跟着队伍去深圳打 RoboMaster，本来是想好好静下心来读读论文，奈何着天气太燥热潮湿，让我心头也浮躁，总想写点什么东西，于是想起来之前说的，正好现在时间也合适，不如写一篇 RoboMaster 回忆录，记录一下，这贯穿我人生五年的比赛。

高中概况

说起来是比较抽象的，大多数人参加 RoboMaster，还是只有一年或者两年，自然也不难理解，大一或者大二加入，打到大三大四，最近可能会有四年的，但本身大一的梯队留下来的就不多，而直接成为正式队员又太难，所以还是以两三年为主。

那假如说广义的 RoboMaster，那么我已经从高一就开始接触了，大概是由于什么北京的所谓素质教育，而且高中里面就存在着一些科技向的社团，有着很优秀的老师，也让我有了接触这些机器人比赛的途径。不过说到头，这些比赛真的是素质教育吗？我看也未必。

感觉到了最后，就算我拿了省冠军，倒也没有什么作用，毕竟确实技术难度很低，远远远远低于奥赛一类的竞赛，而又需要投入成本，大多数学校也负担不起，不够亲民。

所以说到底，机器人比赛还是一些富裕地区的富裕学校小打小闹的产物，让学生们体验一下一些创造感，虽然貌似这些技能在大学中的同样类型的比赛中还能起到作用，然而个人的感觉是，相较于大学中的那些专业竞赛，此类比赛依然算是小打小闹。

高中的时候我还觉得我自己多少有些天赋，自认为是要裸分上清北的，平时和那一帮学霸一类有说有笑，虽然成绩不是最顶尖那一批，但是课余时间的松弛感还是和他们对齐了。我和我的胞弟是同等岁数，在大学期间加入的社团也并非机器人社，而是自己出钱捣鼓一些桌游，创办了一个桌游社。说起来这个社团现在应该依然存在，我们当初留下来的桌游估摸着价格也有大几百元，对于一个月生活费只有五十元的高中生来说，可以说是一笔慷慨捐赠了。

我所在的高中有一种实验班，叫做项目实验班，其实有点类似于培养学生的科创能力那种感觉，而是事实上，聚集的就是那一帮想考理科实验班，但没进去的学生。

我记忆里面真正有项目能力的同学，可能不超过五个，其他的人基本还是经典的做题家，到了毕业，说不定也不会工程制图，代码也写不出几行，当时还没有 GPT，那大伙的水平还要再降一等。

项目实验班有一系列的创客课程，类似于物化生信，选择一个感兴趣的方向，几个同学弄一个小的发明创造，当然也不全是创造，基本就是在网上已经有的东西，大家用一个学期跑一遍流程。

别的不说，我从小应该还算对电脑接触得很多，不是那种单纯的手机用户。在这里并没有鄙视的意思，然而个人感觉，在同时具有使用电脑和手机的条件下，基本只使用手机，而从未接触过电脑，这种人到了大学里面，能力都很差。不少人是本来电脑接触的就不多，开始接触了之后也就了解了其中魅力，更是变成了很厉害的水平，这种自然不在上述范围之内。

虽然我之前使用电脑，最最主要的可能还是以玩游戏为主，然而为了玩游戏（我的父母均是北邮研究生毕业，那时候北邮的分数和北大可能都差不多，毕业可以去 Oracle/Microsoft/IBM 这种国际大厂，在互联网行业从业三十多年），和父母斗智斗勇，可不只是删掉浏览记录，并且让电脑凉下来这么简单，还是触类旁通过不少的技术，代码也会写上几行，姑且在同学们里面也算是有基础的了。

我之前也对电脑感兴趣，加上网瘾少年的游戏制作梦想，所以说就选择了机器人的项目，然后用 Arduino 写写东西。基本的 Arduino 确实没什么好说的，就是很基础的技术，随便来个 GPT 都能写出来比我当时好的程序，然而正是那时候，认识了机器人社团里的两位老师，Q 老师和 S 老师。

Q 老师貌似是北大计算机毕业，很是厉害，管理机器人社和天文社两个社团，平时自己还搞搞书籍翻译，感觉有点像那种已经精神富足了的计算机大佬，而且符合那种搞计算机的刻板印象，幽默风趣，有的时候偏好发滑稽，和学生们打成一片。S 老师我接触的更多，本人非常好说话，非常的和蔼可亲，不过关于老师的其他细节，我倒是不是很清楚，大多数时候和老师聊天，要不然是日常，要不然是比赛相关，聊老师自己几乎没有。

尤其我这个人比较脸盲，而且其实大多数时候比较内向。我非常乐于助人，而且可以和很多人打成一片，然而事实上，我并不愿意结识新的朋友，或者说这令我恐惧且疲惫。可能只有在新环境中，我才会尝试扩展自己的社交圈，而在此之后，这个圈子多半不会有很大的变动。值得一提的是线上并非如此，线上我还是十分积极的。

初识 RM

其实本质上，高一的时候我并没有接触 RM，然而和机器人社还有很多的往来，尤其是用机器人社的电脑偷着打游戏，这件事我乐此不疲，而且老师虽然嘴上严厉教育，但实际上管得不严。

到了高二的时候，有一次我去机器人社，碰到了我的好朋友 CX，CX 是机器人社的主力之类的。我们学校对于那些类似提前批进入学校实验班的同学，会有一个类似于夏令营的东西，他在里面已经提前做了一些机器人相关的内容了，然后在后续，也一直在里面打比赛。

CX 当时说自己在写 RM 的循线程序，在之前的时候，我就已经知道机器人社搞来了几台 RoboMaster S1，麦轮的机器人可以平移，看上去确实现代感十足。我当时说要一起去看看，所以去了我们的另一个场地，看他写这个程序。

高中的 RM，只有工程机器人需要自己写程序，而且写的也不算多，其他的机器人基本上就是图形化编程，我看那些说明也不算难，提供的接口都很简单，所以就干脆写了写，出现了第一版的跑图程序。

随后我就开始了我的 RM 生涯，有点像是说之前的一些同学似乎不打了，反正我可以写步兵的程序，同时作为步兵的操作手。

像是之前说的一样，RM 的程序不算很难，但是图形化接口也意味着很难去使用自己的一些算法，包括说像是 OpenCV 一类的程序更是别谈。现在回忆起来，当初有一位 ZQ 同学在项目班的另一个项目里，貌似学了 OpenCV，当时我问能不能写一个装甲板检测出来，他展示的那个效果很不错，我还问能不能放到我们的机器上，现在来看，好像只是一个单纯的 threshold，甚至没有 findContours，难以评价。

甚至说当时 Dji 没有开放装甲板识别的接口，只有数字识别，所以我们也没指望自瞄。当时的任务是击打能量机关和基地，能量机关是从小到大打一到五的数字，Dji 会提供数字识别的借口，返回数字以及图像坐标系坐标；基地的击打则是需要跑图到对面半场，然后自瞄。

这里面有必要解释一下，RM 高中组的赛制，和大学有一些区别，加上读者可能也不了解 RM，干脆从头解释。

RM 本质上是一个类 DOTA 游戏，其实说角色变成了纯物理世界的机器人，可以用键鼠控制。高中组有限制对机器人的改装幅度，不像大学组是自己做机器人，我们都是用大疆的 S1 机器人。

既然是类 DOTA，肯定是涉及击杀以及血量等等的，RM 具有一套所谓的皮肤系统，说白了就是几个装甲板，或者说传感器，有人说是压力传感器，也有人说是声音传感器，具体也不得而知。高中组的机器人分为步兵/工程/无人机，步兵可以发射子弹，是那种水弹，所以打在装甲板上就可以造成伤害；工程有机械臂或者其他的机构，可以获得弹药瓶，步兵机器人的发弹量是被系统限制的，用完了之后只能等待系统发放的低保，或者用相机模块扫描弹药瓶上的标志获得补充，弹药瓶的获得自然有不同难度，区分度在于高度或者位置，其扫描后可以获得的发弹量也自然不同，最多的貌似是三百，可以爽打一局；无人机也是一个大疆提供的无人机，只需要控制它飞到对面基地的特定位置，让对面的摄像头扫到，基地就会破甲。比赛有补给区，补给区里面有一个标志，扫到就可以回血。

比赛主要分为两个阶段，一阶段是自动的，二阶段是手动的，现在貌似划分更多了，但我只说我当时经历的。基地的护甲默认是五十，假如对面机器人阵亡了就会扣二十，最低是零，但是无人机可以给它扣到负的，一发子弹的伤害是十，护甲与伤害有一种计算关系，假如满护甲，那打一下好像才扣两点血。

另一个机制是能量机关，可以理解为是一个在场地中心的机构，有五个可击打的传感器，显示数字一到五，需要按顺序打，就可以获得攻击增益 ATK。自动阶段激活是一个永久的 1.5，手动阶段激活是暂时的，但貌似是 2。能量机关有冷却。

所以说，不难理解的是，自动阶段需要步兵先激活能量机关，再去打基地；工程拿弹药瓶，而且要跑得快一些；无人机不需要做什么。到了手动阶段，大家就开始 FPS，然后攻打对面的基地。

冠军之路

我加入了 RM 队伍之后，和大家一起努力，程序可以说完成的差不多，不过需要说的是，确实还是接口好用，技术含量不高。

甚至说因为曝光问题，我们在坡上无法识别对面的基地，所以需要循线准确一些，然后再撞墙矫正位置，之后手动抬到一定高度，完全是开环。

工程机器人确实十分给力，我们的速度很快，所以说不至于打低保，弹药脸足够的情况下，基本上是稳赢的。

高中的队伍其实就是打打闹闹，大伙都没什么含金量，不过确实有的学校，本身教育水平可能差点意思，所以打算把这个作为宣传招牌，也是我们当时的劲敌，民大附，不过到最后这个队伍有一些唐，到时候再说。

当时我其实发现了一个问题，这些队伍普遍操作能力不太强，RM 的机器人，毕竟是物理控制，操作有一些粘滞感，一般人很难适应，基本上不能跑打，打移动的目标也不太行，尤其是在没有自瞄的时候（我们当时没人有自瞄）。而我可能说恰好有一些天赋，当时队伍里面的训练，和两个高一的同学加上一个老师打，我可以一个人打三个，而且地图不大，我可以倒着跑全图，一边逃跑一边还手。另一位操作手是 CX 同学，也很厉害，我们属于是强强联合。

当时我们发现了一个简单清晰的盲点，大家貌似都很笨，在基地护甲没有到 0 的时候就在打基地，两点两点的扣，根本无济于事（基地貌似三千还是多少血量，反正很多），而对战欲望很低，让我一度怀疑我在打 RM 单机版。

战术的前置是，我们有比较充足的弹量，两个厉害的步兵操作手，这些恰好我们都符合，于是理论如下：我们在自动阶段获得充足弹药，并且获得永久 ATK，基地的击打其实无所谓，在比赛的前期专注 PVP 而非打基地，杀掉对面三辆车，同时无人机破甲，激活临时能量机关。这时候我们一发子弹对基地可以造成 50 点伤害，两辆车一起不到十秒钟就可以结束比赛。

靠着这套战术，我们很轻易的就在比赛里面披荆斩棘，当然，写的一些程序可能也是有帮助的。

正像是前面所说的，大多数的队伍的操作手都没有灵性，基本上在站桩，所以就一路杀出重围，到了决赛。决赛的队伍就是之前说的民大附，在这里不得不好好诋毁一下，相关问题也无需抵赖，只要是当时那一届参赛的队员都会有印象。

民大附这支队伍，我个人感觉是没有什么含金量的，貌似是请了外援还是什么的，写了些程序，我是不知道这些程序有啥必要找外援，然后还找了赞助之类的，最后实际上比赛没什么意思，基本上轻松取胜，主要说一些小插曲。

当时印象很深刻的是，他们的无限火力机关枪。在 RoboMaster 中对于发射的限制主要分为弹量限制和热量限制。弹量限制很好理解，你只能发射那些你赚到的子弹，更多的不能发；热量则是说，你每段时间只能发一定数量的子弹，这被量化为热量，热量会不断下降，同时开火会热量上升，热量满了就不能开火了。抛开没有明确证据的，在和他们对战的过程中，他们貌似就已经开了无限火力模式一样，就算三百的弹药瓶不在他们这边，依然可以全场一直在打，甚至没有热量的感觉；民大附的战队在比赛的自动阶段打出过 1700 伤害，按照理论计算，最高伤害也不到 1500，所以就有点匪夷所思了；之后还有过民大附机器人失控实录，在自动阶段演都不演，直接启动无限火力，无论是射速还是弹量，都比正常的高无数倍，获得“机关枪”美誉，最后紧急暂停。他们自然也有解释，认为是 BUG 之类的，但是这种现象频繁出现在他们身上，而其他队伍从来没出现过，是不是他们自己动的手脚，自然也就不言而喻了。

同时还有一位仁兄，胖胖的，感觉凶神恶煞。上文说道他们队伍有赞助商，这个赞助并非用来建设队伍，而是打钱之后大家平分，当然，也有一个前提，那就是获得冠军。一共一万多块钱的赞助，每个队员都能分到小几千块，自然是对高中生来说的一笔巨款。然而我们队伍的强势打破了他们这一幻想，基本上我们夺冠是势在必得的，这位仁兄就守在我们队伍旁边聆听我们的战术，不知道是想要帮我们指点一二还是什么。在别的队伍的备赛区逗留本身就是违规，我们尝试驱逐无果，他依然硬着脖子说要站在这里，然后又开始打电话，装作放狠话的样子。不知道是不是民大附就是这种职高氛围，还是怎样，反正一股子小混混的味道。随后更是忽然暴起，把我们备场区的一张木头的桌子用手砸裂了。我不太理解这个行为是什么意思，是类似于混混在街头打架斗殴前，先把玻璃瓶子在自己脑袋上砸一下，显得自己一脸血很勇敢吗？有一种脑子不好使的感觉，最后搞得满手是血，还溅到我们同学的衣服上了，最后是骨折了还是怎样，他们就弃权比赛，把这位仁兄送到医院了。

综合来看，几场比赛都没什么悬念，我们就拿下了北京市和华北赛区的双冠军，也没啥难度和压力。之前比赛之前设想过很多的情况，高手如云等，但是事实上到了比赛才发现，原来我们才是那个唯一的高手。

随后就是备赛国赛，准备了半天，最后因为疫情也成为了线上评分。我们队伍的一大优势在于操作手，最后纸面实力排了一个国家二等奖，倒也说得过去。

基本上 RM 比赛可以算得上高中最后的疯狂了，紧接着的暑假里面还可以有一些新生培训，算是夏令营，事实上新生的素质也有一些堪忧，机器人队成为了打游戏的地方，后面也就禁止游戏了。

事实上我们几个老队员也有打游戏，也可以说这种行为，或者说不好的表率是我们先开始的，但是老队员们一是早已经完成了测试，任务都做完了，二是当下确实没什么要紧的事；新的这些同学，倒是觉得机器人社是玩游戏的避风港了，实在是令我头疼不堪，更是有人说出了“要不是因为可以玩游戏，谁来机器人社”这种荒谬的言论。

事到如今，我也就在玩碧蓝航线一款二游，之前我是经典的单机玩家，游戏时长几千小时，联机游戏也是暴雪那套，可以说半个婆罗门，现在倒是没什么游戏有吸引力了，也就渐渐不玩了。身边还是有不少同学玩游戏，玩 MC 的不少是 CS 领域高手，其他的玩游戏的人大多数表现正常，但是表现有点唐的几个人多半都是游戏玩家，我不知道这种必要不充分是否有什么隐藏其中的道理，但是也开始慢慢认同游戏害人不浅这件事情了。游戏在我的生活中给我带来的不愉快很多，主要是作用在一些我认识的人身上，有时间以后再说。

第二年 RM，我基本上也就是有时间回来看看，算不上深度参与，因为高考所以也没有时间和他们一起去比赛。据说这一年民大附他们又有技术的提升之类的，我们输了，但是具体我也没有了解太多。

高中的 RM 就在这种不知不觉之间结束了，唯一留给我的只有两个冠军奖杯，数不尽的回忆，以及当初的热血沸腾。

在这里再补充一些内容，以免将来忘记，由于我的记录是以事件为主的，所以说对于人的记录其实甚少，甚至说在前面提到的 Q 老师和 S 老师在后面也没有提及，当然很大程度也是因为大多数事情我已经记不清了。

我们队伍的主力一共有四个人，都是和我一个年级的同学，除了我，CX 同学，还有 HY 同学和 TR 同学，这两位同学共同负责的工程机器人。

后来加入了大学的 RoboMaster 比赛，有一定原因就是因为 HY 同学是 RMUC 的忠实粉丝，在高中期间就不断地说比赛里的一些情况，也让我对大学组的比赛有了了解，否则我可能连大学组的比赛都不知道。

除此之外，还有几个高一的同学，名字我也都记着，但是就缩写而言，和后面的一些人产生了冲突，所以就不一一写了，然而依然有必要说的是，这些高一的梯队同学在比赛中也做出了卓越的贡献。因为疫情原因，全国赛改为了线上比赛，此时我们这些主力队员都已经高三了，需要准备高考，而线上比赛又需要录制视频，这些都是他们做出来的。

大学概况

不少读者应该知道我在大学的情况，但是为了回忆的完整性，还是重新说明一次，把内容进行完全记录。

大学的时候，我进入了人工智能专业，老实说我之前是想选数学的，可以理解为某些对于自己数学天赋的自信，虽然这种天赋近期貌似遗失了。然后进了人工智能专业之后，我也就开始想要了解这个专业里的东西了，当时我能想到的，无论是和编程还是人工智能，唯一能擦上边的就是 RoboMaster。

于是我就在专业群里面发问，当时我在专业群里还算活跃，所以大家的回复也很有效，大概的意思就是说，我们专业里面有 RM 视觉组的组长，也是我的学长，比我大两年。

于是后来我就联系了这位学长，即 JH 学长，然后他带我进了 RM 招新群。

在大学一开始的时候，事实上我对一些学习之类的事情不是很上心，我的目标就是保研而已，而且是保研本校。我刚开始的时候做过很多心理建设，类似于既来之则安之，因此没有去想再追赶上我那帮高中的同学，当然后来的前进的理由，也已经不是追赶。

尽管我现在在一些新生指南中说，大家可以在假期把高数/线代/概率论全学完，然而这并非我当初做到的事情，准确的说，我没学概率论。在此基础上更加糟糕的是，我对于编程的学习知之甚少。

尽管我之前说过我有一定的编程基础，但是事实上，也只是在一些算法竞赛中做过最粗浅的学习，使用的也是 Dev C++，同时做过项目和写过算法题的同学，应该自然有所了解，基本可以说除了他们的语言相同之外，很少可以见到共同点，包括一些 C++的特性，设法中更是没有涉及。老实说，算法竞赛用 C++，只是因为快而已。

视觉梯队

我当时基本上也没有做什么准备，因为之前和 JH 学长说的也是，对于大一同学基本上没什么要求，但是可能也无法成为正式队员。当时我没有做过多的了解，记得当时面试的时候，是一个非常简单的问题，如何在一串数组里面找到最大的元素，需要手写代码，可以说十分的水。

当时在视觉组里面的有四位学长，分别是人工智能专业的 JH/MD/JXY 以及电气的 YZ，都是很厉害的人。

RM 拥有一套属于自己的培训与筛选的体系，这套体系的根本目的并非培训，而是进行筛选。之前的队伍其实倒也还好，然而最近随着内卷的风气越发严重，而最近我们的成绩很不错，有了一个加智育分的招牌，也就吸引得不少学生呼啸而来。

老实说我非常痛恨这些人，因为 RM 本来就并非像是腾飞杯一样的水赛，不是说来几个人拿一个实验室里的项目，自己包装包装，就可以混一个奖项加分的。倒也不是说这类为了分数来的人没有水平，只是说他们确实很难坚持下去，可以说混这个字已经刻在了一些人的骨子里。一开始在队伍里的培训的时候，大家也都是知道轻重缓急的，都是一副很卷的样子，后面一旦发现自己进入了梯队，也就全都兴致全无了，又或者呆在主力队员的位置上，但不太做事。

我大一时候的培训更加偏向于压力，培训的内容和考核的内容基本上关联不大，当时可能说培训的是计算机视觉的理论，但是考核是让你写 C++ 的 OpenCV。

OpenCV 的本体其实是 C++为主，然而因为 Python 的易用性，导致网上的教程基本都是和 Python 相关，当时 ChatGPT 也还没有横空出世，所以代码基本上都是在没有人教的情况下慢慢摸索。

其中当时教学中的几个很大的坑，包括说 OpenCV 和 C++的一些配置，以及 ROS 等等，在后面我也都有慢慢去自己学习，当时的任务也算基本完成了，然而由于组长告知大一同学只能是梯队，完成最后的任务没有什么意义，我在简单看出了思路之后也就没有再继续写代码。

当时的那段时间是疫情期间，基本上也都是网课，所以说对于点名之类的问题，要求也不算很高，加上我更加倾向于自学，那段时间的作息可以说全乱套了。当时我基本上一个循环是六个小时，可能学习四到五个小时，然后剩下的时间睡觉，之后又醒来，接着学习，尽管从那段时间对我后来的提升很明显，包括说对于编程的一些基础/思维方面/计算机视觉的理解。

大概也就是在国庆结束之后，我们刚刚结束了培训，准备公布正式队员的名额，此时 JH 学长和 MD 学长忽然就离队了。由于本人并不是非常热衷于社交，而且也并不是十分八卦，这其中一大部分的原因来自于本人的脸盲，剩余的可能是懒惰。因此假如读者想在本篇回忆中，找到一些关于队伍历史上的秘密，那么可能就失望了。事实上关于这两位学长离队的原因，我也没有太多打听，有人说是因为加分，有人说是因为压力，具体我也不得而知。

正式队员

由于两位学长的离队，我也从之前的只能成为梯队，变成了一名正式队员，所以接下来理论来说就是完成剩余的任务，这里面我首先负责的是相机取流的任务。

我从头去阅读海康相机的 sdk，然后去写取流程序，当时的疫情已经越来越严重，基本上能够开展工作的时间不算很多，大多数时候我就呆在地下室（也就是我们社团的活动场地），然后看一些代码，顺便学习一些课内知识。

后来因为更多的疫情，期末考试也取消了，基本上整个学校全部封禁，本来我们说 RM 要办冬训，这也算是一个传统，为了下半年的正式比赛打一下基础，把大多数的事情都做好，但是也被迫转到线上了。

现在还有印象的是，当时听说了地下室也要封，我们的能量机关被放在另一个地方，当时我和视觉组的组长 YZ 学长骑车去一个挺远的楼里面，用相机拍视频，这样用来到时候在家里进行调试。虽然貌似最后，因为能量机关的改版，以及楼道里的反光太过于严重，所以说这些视频并没有很派上用场。

之前我的任务是负责相机的取流，直到后来，在冬训的时候，开始和 YT 一起负责能量机关的识别和预测，我负责识别，预测则由 YT 负责。YT 适合我同年加入队伍的大二学长，比我大一个年级，预测当时主要就是通过拟合，然后弹道模型算出来飞行时间，去求出来云台需要转动的角度。比较朴素的预测是通过迭代法进行的，我们当时建立了一个模型，发现这个最终的角度虽然是超越的，但是是存在一个方程的，所以后面直接可以用牛顿法进行解决，然后求出来 pitch 和 yaw。

寒假的时候我主要在读之前的能量机关代码，之前的代码主要使用了 ROS 框架，但是讲实话并不好评价，因为这套框架对于 ROS 的运用仅限于把串口通信和运算分成了两个线程，我们后面觉得在这里使用 ROS 是完全浪费的，而且也会被迫要求新人也重新学习 ROS，这是巨大的教学开销，也没什么必要。

大多数的代码有很多的嵌套，而且有一些算法，如今来看，可能确实十分的精妙，但是有的耗时太多，有的效果不太明显，而且并非 clean code。

当时我把能量机关识别的流程完整的写了出来，然后一个一个梳理，写了一套新的比较简单的流程，跑起来也没有什么问题，可以说十分的流畅，而且也没有误识别的现象；在培训的时候也有这个识别任务，当时我用了漫水处理，这并非一个主流的写法，但我也把它作为一个方法封装进去了。

当时我们商量的是，因为自瞄还在老代码的框架里面，但是我已经新写了一套取流+能量机关的框架，把两个融合在一起并不简单，而且我当时也不是很会 ROS，所以说留一辆车给新代码，其他的都是老代码的。

自瞄当时还处于需要检测装甲板的这个阶段，最大的难度其实是灯条匹配，车辆的每一块装甲板都有两个灯条，怎么确定这两个灯条是属于同一块板子还是两块，这是一个难题。通过几何上的特征，可以保证大多数情况不出错，然而这并非全部，后面有不少的队伍出了一些异形车，使得这种朴素方法的误识别率更高了。

当时已经把能量机关做的差不多了，所以想着做一下自瞄，一开始是 yolo 识别一个 bbox，然后加一个灯条匹配，后面看到了沈航的开源，他们做了一个四点回归，直接求了装甲板的四个顶点，我的手比较快，直接把这套流程缝合到了新框架里面。

记忆中比较深刻的是当时的一次交流赛，是西安联盟里面的几个学校一起打，当时队长的意思是需要稳定性，所以说不允许换新代码，我偷偷在一个车上面放了新代码，可以说是效果拔群，事后队长来找我说，这个代码效果确实好，把每个车上都放上这个代码吧。

还有其他的事情是，能量机关也换了样子，所以说老的传统视觉不好用了，当时已经有了训练神经网络的技术，其实说是训练，主要是包括标注在内的一套框架，以及最后部署的代码，所以说我们对能量机关也做了一个神经网络去识别，同时我也写了一套新的视觉逻辑，也没什么问题。

后面就是联盟赛，联盟赛办在本校，肯定是要打出气势的。当时队伍里面除了组长 YZ，还有我、YT、同样是新人的 SY 以及 JXY 学长。JXY 学长招来了 ZH，他们两个人一起做了这个赛季的另一个重大项目，哨兵的 SLAM 和导航。

我们在联盟赛打的还算不错，最后拿了冠军，其中很大一部分原因就是哨兵出力了，同时当时的操作手也很有水平。那时候我的课余精力还很充沛，所以也报名了操作手选拔，当时说的是大家一起打一打，然后看看水平，具体叫谁去打会在群里说，结果我就被叫了两次，一共才打了两局，其他人貌似就已经十多局了，后面操作手出来了，我甚至都没有第一时间知道。再之后有人说，压根就不打算让视觉组当操作手，这句话是不是真的我就不得而知了。

再之后，组长 YZ 和其他的学长们，因为都已经大四了，所以开始要准备毕设，我是其他人里面代码写的最多的，所以说隐隐约约间有一种要成为组长的架势，也开始负责一些东西。

值得一提的是，当时的视觉圈子里面出了一个很厉害的开源，忘了是哪个大学了，作者叫陈君，所以大家称之为君瞄，用的也是 ROS 框架。我们的代码后面把他们的一些程序解耦了，然后做了修改，放进了自己的框架里面，我这个人特别手快，对这种解耦的事情非常擅长，后续调了调也就没啥大问题，现在我们的程序基本上沿用的还是这一套框架。

虽然说君瞄确实很不错，但是整体的氛围却让我感到非常反感，有点造神的感觉，当时陈君把他们录制的视频放到网上，大家都很吹捧，但是好像也没什么人在实战中打出来这个效果。

后来作者说是因为和人吵架，被人嘲讽了，所以把自己的程序删库跑路了，但是据传说，在此之前他用这个几百个 star 的 repo 拿到了大疆的 offer，所以是懒得搭理开源社区，还是真的恼羞成怒，还是要画一个问号的。

当时分区赛，陈君还和我聊过，拿着他们那个库的贴纸，问我要不要，然后就像是在推销一样，我说不用了，他依然说个不停。令我印象很深刻的是道具训练，这个环节大概就是每一个队伍调试一下能量机关以及飞坡之类的，他们队伍能量机关不行，就在场地里面调自瞄。这种行为其实有点行为艺术，因为自瞄完全在任何地方都可以，这个地方光线也不一定正确，完全就有种秀肌肉的感觉，事实上我印象里命中率也不高，车离的还很近。

有读者可能好奇，我们既然拿了他们很多程序，为什么我还对他如此诋毁，岂不是吃饱了骂厨子，这还要从比赛本身开始说起。

事实上，就像是我之前说的一样，我对于陈君的反感主要来自于造神以及饭圈的氛围。我们小组赛和他们分散了一个组，当时我们在他的算法上做了不少改进，自然要碰一碰，当时我们打他们，打到了一比零，我们落后，因为裁判系统的故障，比赛暂时暂停。那时候没什么人看好我们，毕竟君瞄威名远扬，这倒也可以理解，更何况他们已经先下一城。然而陈君在视觉群里面直接说，假如他把西交打败了，他就去无偿给每一个队伍调车，群里立刻席卷了一片西交必输的恶毒言论。当时我印象很深刻的深圳大学依然支持我们，我们现在和深圳大学关系也很不错，在分区赛也是和他们一个场地。这个事情也就导致我们之间确实结下了梁子，不过因为抽签的运气好（说起来，当时还是队长和我两个人去抽的签），我们在一比一平了之后，小组第二出线，反而战胜了劲敌晋级八强以及四强，遇到的都是状态不太好的队伍，而陈君则止步十六强，去打复活赛了。

另一件印象深刻的事情是哨兵，当时两位学长都来不了现场，而队长在申请建图的时候，因为疏忽没有通过申请，我当时负责哨兵的维护，也是出了不少的状况，最后基本上哨兵是通过在家里的巡逻获得了一点点的贡献。

后面到了国赛的时候，视觉组这边一直负责雷达的 LXY 接管了哨兵的工作，但令我印象深刻的是他把工控机一拿到手之后就让我做了格式化，出于谨慎，我对工控机中的内容进行了备份，不然估计程序都要消失了。

事实上，在第一个赛季的时候，视觉组主要起到作用的还是能量机关的激活，而且因为各种各样的原因，最后激活的效果其实不尽如人意，自瞄因为只能识别不能预测，或者说没有调过预测，所以说不能打高速旋转的小陀螺，在实际的赛场中作用不是很大，主要是一个辅助。

当然，我们做的工作还是很多的，我们完全地重新写了一套框架，包括说串口的通信/相机取流/识别和预测/能量机关，在这里面值得一提的是串口的一个奇怪的 bug。

很久以前，我们的通信就已经可以使用了，但是事实上还有不小的问题。因为 Linux 系统的特性，串口的通信本质上就是对文件的读和写，然而在细节上来说，还有不少的内容需要设置，我们使用了网上的开源程序，封装之后放到了我们自己的框架里面，但是出现了一个很奇怪的问题。我们的通信协议的长度是 64，也就是说，只有在我们接到一段长度是 64 的内容之后，我们才会对其进行解码，然而事实上我们经常收到长度为 63 的内容。这个问题我们想过很多方法解决，包括说是串口线的问题/串口的问题，甚至到了最后，我们感觉将线稍微弯曲一下，就会持续地发出 63，而将其恢复，通信就正常了。这种感觉就好像我们将那一个字节捏在了手里一样，让我们百思不得其解。最后是视觉组的 YT 发现了问题所在，在看了几篇博客之后，修改了代码，这时候我们才知道，原来是因为串口的收发会将回车不认为是字符而是真回车，导致这个字符不会被记录，从而少了一个字节。

到了国赛的时候是去深圳，在这里顺便说一下两个城市的住宿条件。我们出去比赛主要是学校出钱，或者使用社团的经费，当然我们每个人也都垫付了一些，其中甚至有的没要回来，这是后话。为了省钱，我们每次出行肯定都不是那种豪华酒店，往返一般是硬卧，酒店也很难安排到每人一张单人床，可能要很多人挤在一起。

长沙的条件一直都很好，我们住的是 LOFT，在市区里面，旁边也有吃饭的地方，车辆调试一般在晚上进行，我们会租一个篮球场，也在住的地方不远处；深圳在当时则是一个酒店，因为长沙的时候我已经实在无法忍受住宿，所以干脆特立独行，让家里人给我单开了一间房，酒店的条件也很舒适，市区里面，旁边还有商场。去深圳之后，我们是在一个羽毛球馆里进行调试，当时我负责反前哨站，基本可以做到百发百中，但是有些玄学，而且因为机械装配的问题，在离得比较远的时候，会出现怪异的情况：我发给电控一个坐标，希望他瞄准，瞄准的时候会抬高枪管，我就看不到目标了，导致在离的很远的时候不能正常的自瞄，这个问题在下一个赛季通过修改机械结构解决了。

国赛的时候，在调试的时候，视觉能做的事情已经不多了，能量机关差不多的打，自瞄的识别很稳，反前哨站则因为机械结构而爱莫能助。除了哨兵，由于上述的问题，导致本来还算能用的框架又出了不少问题，LXY 需要通宵调车。其他的我们几个视觉组的，前半夜把已经没问题的程序跑上几遍，然后就在一边聊天，等夜宵，我经常去场地边上的便利店里买几包酒鬼花生，很是好吃。

国赛倒是没什么好记录的，我们的水平，老实说，在当时并不配得上群魔乱舞的国赛，但是运气好，分在的小组竞争并不算很激烈。我们第一赛季的全部比赛，可以说能够胜出，都是因为有运气在里面，而这一点在国赛体现的尤为明显。小组赛的三个对手，要不然机器人出了常规问题，要不然哨兵出去了没有回来，导致我们几个在观赛席的反应是：“Nice，他们哨兵出去了，这下应该回不来了”或者“果然没回来，基地已经展开了，该去偷家了吧”，因为相较于今年，去年的对手普遍没有击杀哨兵或者上环高打基地的能力，或者是因为被我们主动的盯防而阻止的。

在这样的情况下，我们开始了两场比赛全部胜利，然后莫名其妙的，就出线小组赛了。从观赛席回到备厂区的时候，我们几个人问彼此，这就国一了？显然是有点不太相信这件事情的发生。

国赛的后续碰到的真高手，自然也就赢不下去了，我们的名次也就止步十六强了，但是好歹是在很多年后再次追平了队史。

组长之路

事实上，在第一个赛季结束之前，我们就已经基本确定了视觉组组长的人选，也就是我，抛开别的不谈，我可能确实做的工作比较多。

然而在国赛之后，LXY 也对组长的位置起了觊觎之心。大概是因为加分的缺乏之类的，他在国赛负责的是哨兵，可能认为加上了组长的身份，就可以获得不止两分的加分，于是便开始和我竞争。

我因为有事情，比赛结束之后就回了西安，大多数的队员还留在深圳，因为有大疆举办的青工会。据说是因为当时，之前定好的队长去打别的比赛，耽误了这边的进度，老队员对一大堆定好管理层都有一些意见，所以打算大洗牌。当时是队长和老组长找到我，我也记不清先后顺序了，包括 YT 也问我，视觉组组长是不是要换人。我心里倒觉得奇怪，我的培训教程都已经写得差不多了，为什么忽然有人提换人的事情？

后来大概了解了一下才知道，估计是视觉组在深圳期间没做什么事情（开始的时候需求就是那么多，我们都做完了，我之前还说过要不要调试一下防陀螺，队长也不让，我们还能做什么呢），估计是看 LXY 做的事情多（毕竟工控机都格式化了），所以打算把组长的位置换人。

LXY 其人，倒也不坏，但是干活的积极性确实不好说，当时我们几个其实关系都不错，但是这件事情确实把我气得不轻。之前他做的是雷达，来队里的次数就不算很多，雷达是老代码，相较于之前据说是需要删，都不需要写什么。后面接手了哨兵，也就需要经常来一段时间了。

我们当时拉了一个群，讨论组长人选的事情，现在来看，我其实对于组长是谁没什么所谓，只是说对于莫名有人说我贡献度什么的，心里确实不满。包括说后面有一段让我气愤的话：

唉，其实我说一下就是我看其他组的同学每天通宵熬夜调车感觉很心疼，感觉视觉组就这样走了很对不住其他组，所以我一般选择了陪伴”

视觉组工作做完了，留一个人守夜，其他人走，不也很正常吗？难道说让大家在这里空耗才是正确的吗？再说陪伴，怎么不见你分区赛陪伴了，我因为 RM，这一年来少说也熬夜了五六十天，估计上百，那时候你怎么不心疼了，不陪伴了？

这是我第一次隐约对 RM 产生了一丝失望。我高中就是打 RM 的，给我留下的都是快乐的回忆，但是大学的 RM 显然并非如此，越往后，越不是一个安心搞技术的地方。人情世故，责任推诿，勾心斗角，层出不穷。只是说我打了一年，一是舍不得一些朋友们，二是对得起一些人的期望，三是确实还抱有改变一些事情的念头，所以打算留下来。在今天来看，我还是不知道自己做的是否是对的，我不需要加分，第一赛季的分数早就够了，更多的分数也没有任何价值；科研的性价比远高于 RM，要我操心的事情也没有那么多，但是我还是留下来了，虽然可能没人因此感动。为什么呢，我会问自己，有太多人给了我太多的期待，我想，至少不要辜负太多。

考虑了许久，YT 打圆场，说暂时就先考察我，假如没问题，我继续当组长，我也和前队长保证，好，那就没问题，我就正式成为组长了，虽然说事实上我履行这个职责已经将近半年之久。

比赛也结束了，下一任管理层也都定下来了，那这个赛季基本上也就告一段落了，收拾收拾再出发，要准备下一个赛季了。

我们的招新工作其实有点混乱，早在暑假开始的时候，我们办理过一个综能课，当时就是说培训之类的，但是最后讲了一点点就不了了之，后面就要进行训练了，综能课快速完结。到了比赛结束，已经八月十多号，也已经到了需要开始下一轮招新的时候了。

我一向认为自己是有一些新人亲和力的，在招新的环节也比较下功夫，一方面我大二的时候确实更多时间会投身于科研，当初写了一些程序，可能还是需要新队员来继续开发，另一方面，我也确实认为，新鲜血液才是个队伍的未来所在。

之前的招新工作其实一个重点在于压力培训，我们培训的内容和讲的内容并不是很相关，而最后做的事情和培训的内容关系也不是很大，只能说确实是作为筛选所设计。而今年培训的难点，另一方面则在于人工智能的兴起，不像我当初的情况，大多数的代码都需要我顺着其他人的博客去查，而且质量也参差不齐，如今只需要和模型说上几句话，大多数问题就迎刃而解。

因此一方面，视觉组的培训应该更着重于帮助大家快速掌握一些基础技能，这些事情是人工智能也不能真正速成的，所以我在家的时候，大概录制了八期课程，去讲解视觉所需要用到的 C++知识，本身长度也不长，这样可以在线上就完成这最费时间的一步。在之后的培训，我也是主要从计算机视觉的基础说起，讲了一些通俗易懂的概念，然后就带大家上手代码。

事后来看，这种选择不一定是正确的，培训的效果确实很好，对于任务，大家也可以比较出色的完成，但是事实上视觉组的主要工作在于后期的长期调试，代码上的一些东西，一是没有必要再去找轮子，二是那些需要写出来的难度都不算很高，导致任务缺乏区分度。

一些同学确实是三分钟热度，很快就离开了，剩下的不少人都可以完整的跟下来整个培训。然而一方面出于一些交情，因为培训和新人走得太近，不太好意思通过打卡时间将他们开除；另一方面，大家的实力确实尚可，导致之后选拔不出来可以坚持下来的人，按照现在来看，当时选拔下来估计七八个人，现在只留下来了三个人。

要是将来还是由我来办培训，双盲的打分是肯定要存在的，而且估计任务的难度还要进一步提升。

当了视觉组组长之后，确实有参与一些行政相关的事情，然而到了赛季的后半程，这些事情又莫名其妙的消失了。我们队伍本来打算使用飞书，然而从结果上来看，除了项管还在坚持，大多数人其实用的不多，这种特别小型的团队，确实没有必要使用飞书进行管理的地步。同时也是因为熟人，物资管理到最后做的也不是很好，尽管我三令五申过，视觉组的物资，在使用之前要和我说一下，但从结果上来看，不只是我的键盘和设备丢的差不多，像是相机之类的东西，其他组拿走之后，我也要花不少时间才能溯源，还好最后没丢什么。

第二年的技术发展也算是日益完善，之前没有的视觉兑矿，以及更好的反陀螺自瞄，更好的能量机关算法，更好的 SLAM（最后是交给了电控组的同学，LXY 因为到勤时间不够被移出队伍了），也都陆陆续续地出来了，总体上发展还算平稳。我把去年我做的一些开发，陆陆续续的都交出去了，分配给其他同学，他们在我的基础上也有做很多的调整，或者独立做了很多的开发。

成为组长之后的一个明显的体验是，没必要再去亲力亲为的进行调试了，虽然说因为我还负责反前哨站的工作，所以和实际工作还有一些接轨，但是绝大多数时候，我只需要了解大家大致的情况就已经可以了。

这个赛季之中还有一些人员变化，但是因为我也不太了解具体情况，可能也就不会过多的介绍了，万一说错了，可能反而还要被其他人说。不过可以说的是，从体感来讲，我身边的队员普遍对于管理层都不太满意，而且一些进度上确实也有太过于 push 的嫌疑，现在比赛还没有结束，所以说换届还不会开始，事后怎么清算我自然也就不太清楚了。不过事实上我倒是观感不是很大，一方面现在的这些人基本都和我同届，而且我也都已经有了加分之类的，也可以说是死猪不怕开水烫，反正我事先定的什么目标，我就按照这个目标去执行，也不管别人催什么的，定的 ddl 之前肯定也可以完成。

一开始因为本身的自瞄，对于远距离的目标的识别和建模也都不太准确，所以说我的调试也不是很顺利，但是后面考虑到前哨站的特性，使用了更加 simple yet effective 的策略，总体来说就还算准确了。之前说的是命中率百分之七八十，后面我基本可以做到百分之百，但是因为发射之类的原因，有的时候可能卡一下，就会有一定偏差，但是这种问题也不是某一方的责任，确实是长期需要改进的。现在另外的问题是通讯，我发出去的信息在另一边不能很好的接受，似乎是因为电控的总线上挂了太多电机导致的，现在随着头越来越重，控制的死区也开始增大，这一点我暂时也没有想到很好的解决方法。

这些策略在学校的时候，还算很不错，一开始用的是大疆的 Gen1 弹丸，基本上可以说很稳，到了后面用 Gen2，事实上弹道就和电控的弹道模型有了很大的差距，这个事情在视觉这边可以用算法比较方便的解决。在电控端重新标定一个弹道模型，玄学成分太大，我也没有指望。后续的基本全部操作，都是为了弥补弹道上的问题，对弹道做了一阶多点的标定，不过显然的是，在没有解决本质问题之前，视觉的方案终究只是治标不治本。

这个赛季依然选择的是去长沙参加分区赛，然后再晋级国赛。相较于去年来说，一些视觉的方案确实已经被落地了，加上我们也派上了一些如平衡以及吊射英雄的一些比较前沿的兵种，所以说最后打出来的效果很是不错。

去年如此来看，确实运气不错，最后还拿了一个分区赛四强，今年就不是那么顺利了，但是还是打出了自己的水平，晋级国赛。

结语

一开始打算写回忆录，还是比较激情澎湃的，想着自己至少也打了这么多年，一定也有很多有意义的东西可以记录，然后我到后面却发现，好多事情早已无法让我兴奋起来。一些内容我记不清了，一些内容我也不太确定，太多的琐事太多无趣的瞬间，让我开不了口，也落不下笔，记叙也从顺叙变成的插叙，索性将故事收拾一下，等将来想写了，再做一些补充。

大学的 RM，一开始做技术的时候是很有趣的，不断自我提升的感觉也很棒，然而出一些自尊或者其他的情结，想要接任组长之后，我是反而慢慢地对这个比赛失去了一开始的激情，而回忆路越往后写，反而越觉得没什么事情好写。一些事情我已经记不清了，时间也仿佛飞快的流逝，那些古老的回忆，反而在我的印象十分深刻。两年的 RM 大学生涯，我好像做了很多，但是对一切又似乎没什么改变。机械依然是比赛的焦点，视觉组从重构到各项技术都达到新标准，我确实也或多或少都有参与，然而组员们的功劳，我倒也不能全都一个人拿下。

我忽然间想起来，在第一年去国赛的时候，YZ 学长和我说的话。他说自己虽然是组长，但是好像这一个赛季也没有帮上什么忙，我一个人向前做得太快了，大家都没有追上很多。YZ 学长的技术能力是我至今见过最顶级的一批人，一开始的很多探索也都是他牵的头，那时的他想的会不会和如今的我想的一样呢？

我或许给一切开了个头，然后每名组员就向前冲刺了，而我还呆在原地，缠身于生活中的琐事，回过神来的时候，自己却已经帮不上忙了。

好在结果不差，也算是没有辜负大家一路以来的努力，尽管我的参与也不算很多，但或许也还值得厚着脸皮说上一句，没有辜负当时大家的嘱托。

未来的比赛我还会不会打，我想了很久，假如没有人赶我走的话，大概还是会再厚着脸皮待上一段时间，不过未来还是属于新人的，我嘛，暂且日拱一卒吧。

周记 Week5

Wed, 31 Jul 2024 00:00:00 GMT

由于迟到的第四周周记，许多在第五周发生的事情，在第四周里没有来得及表达，因此也就给了我的表达欲更多的动力，在匆匆忙忙写上几个第四周的周记之后，也就开始了这周的内容。

学业

科研

首先是跟进一下之前的实习申请，在大老板面试之后，又是小老板的面试，大老板那里只能说确实压迫感很强，虽然老板本身和蔼可亲，但总体看上去，是对于我的工作比较不在意的。可能说投稿只是一个必备项，能证明我是优秀一些的学生，但本身考虑更多的还是我对于将来的领域的理解，以及一些基础技能的掌握。这确实也是一点，事实上我的这篇论文确实是是在一个小领域中的小贡献，对那些大型的工作来说，可以说只是我有科研的经历而已，剩下的其实也不能证明什么。

小老板的面试倒是细节了不少，但是也没有拷打的意味，这说起来我的感受也不清楚，假如说是一个非一作的同学来回答，会不会对他的一些问题回答不上来呢？但是至少我来说，感受并不明显。

大概是很舒适的和小老板一起过了一遍我的工作，然后我又聊了一下关于 embodied ai 的一些看法。这其中自然也有一些提问，多半是关于一些，无论是多模态也好，还是具身智能相关的一些论文的内容。只能说确实是一分耕耘一分收获，一方面我展示一些之前的博客内容，老板也知道了我的积累量，而且后续的一些解释和理解，也基本在我的了解范围之内，因此没有太多的问题，观感应该也很不错。

面试结束的时候，小老板说我对于领域的理解在同龄人里面应该是比较多的，实在是令我受宠若惊，然而，好吧，先虚心接受，再继续努力吧。

之后 HR 很快给了反馈，两次专业面试都通过了，之后和 HR 打了一个电话，了解了一下将来的一些情况，之后就说开始跑 HR 流程了，估计一周左右就可以有 offer，希望顺利。

焦虑

我已经走了很多的路，走了很远很远，但是回头看向身后，总感觉那些被我拉开距离的人不一会便会追赶上，而向前望去，在我前面的人又是距离我那么远。

加入了一个小群，里面应该也算是一批目前全国非常厉害的科研高手，只能说还是人外有人天外有天，可笑我之前嘴里还说着无所谓，但是依然在心里是有一点沾沾自喜的。

年纪轻轻就已经有了一篇顶会，貌似这在人工智能学院是前所未有，是不是也可以说是天才了呢？然而我的成绩不算好，别的内容也不算突出。女朋友总问我，有一篇不就够了吗，为什么还要继续努力？我也想问自己，是不是贪得无厌了。

我总是能在一些人里面混到中游偏上，然而总是做不到顶尖。

小学的时候，我是数学课代表，初中的时候，我是数学最顶尖的几个人，高中的时候，几乎大半个我们年级的数学组老师都认识我。高中的时候年级组长也是数学老师，我们模拟考试，数学卷子有的时候我提前一小时就可以做完，然后就借口说上厕所，就出来闲逛。年级组长语重心长地和我说，你是咱们年级最聪明的学生，当然，还有经典的：“需要更多的努力”。这句话后来几乎成了梗，像是差学生专属的 pua，但是我大概能确认我并非此类，因为老师也跟别的不少老师提过。高一的时候我还参加过数学竞赛，拿了省一的末尾，不过后面学校里面竞赛训练聊胜于无，又赶上了疫情，最后也就不了了之。

不过考得好我是一向不擅长，语文作文有的时候能拿个范文，但是整体上大多数科目属于看着都会做着都错的情况。不少问题我看到红叉子之后立刻就能反应过来，然而有什么用呢？老师也总是说我粗心，但是我已经尽力检查了。

我能在那帮学霸里面混的开，但是一到考试就和大家拉开差距了。小学的时候有推优，能去更好的学校，我没去成，在初中里面也成了很厉害的人；中考去了不错的学校，又是新的环境，更厉害的人，我还是混到了靠前的位置；高考发挥失利，来了西交，人工智能专业（如今来看，这或许是很好的结果，本来我一直是对数学感兴趣），又是年级前列，但也不是最顶尖。

有人说，你这是不擅长考试，所以去的地方人都不如你，你自然就到中游偏上了，我却倒也觉得自己是有几分天赋的：我是北京考生。

我其实有一套歪理，辩解一下，北京考试卷子简单但是考验心细云云，在这里就不说了。从现实来看，我虽然排名不高，也算是年级前列了，论文发表也是自己老老实实做。所以要不然我是有混到中游偏上的天赋的，要不然北京考试就真是地道了，还是能整出来两个像我这样的做题家的。

天赋的话题就到此为止，那么现在呢？我已经到了前列了吗？插入了太多的回忆，现在暂且回到之前的内容，焦虑。

我是总很容易安于现状的，一千米考试的时候，到了快结束，会想着跑慢些，反正分数差不多得了，中考高考考完之后，说是沮丧，倒也没有很多情绪在里面。然而科研岂是中游偏上即可？要是安于现状，有怎么有安稳的生活？

我的理想不算远大，我喜欢学习喜欢技术，学习本身的开销不大，一张桌子一台电脑足矣；女朋友喜欢裙子，倒也不是名牌，jk 或者 lolita 足矣；我们经常出去一起吃饭，也不是豪华饭店，一顿饭贵则一百多足矣，否则小几十块钱也能将就；住房不用太大，不逼仄就好，能晒晒太阳。虽然这种生活已经难得，然对于我当下来说，不算很困难。

可是我总会多走一步，免得遇到意外，但多走了这一步，又是新的风景，又有新的高手，又要我更加多走一步了。

于是乎焦虑油然而生，越往上，越是高手如林，越是觉得后怕，高手如此之多，假如我没往前这一步，那当初那个层面的厉害人士岂不是更多？只是我不了解罢了。

唯有学习，继续努力，日拱一卒吧。

生活

火车上

由于在火车上，陷入了极度的人生的不平静之中，周围都是小孩的声音，偏偏自己的事情又一团乱麻，让人心烦。

坐火车去深圳，队伍里只能报销硬卧，这劳什子火车，晃来晃去，逼仄的车厢，穷鬼的我，还有什么比这更让人烦心呢？

一直在筹划时间问题，首先需要到深圳之后去照相馆照个证件照，然后正常的仁至义尽调调车，RoboMaster 对我来说，功利主义的价值约等于零，然而仍有情义在。老组长将视觉组托付给我，我总不能放下不管，不然其实可以连比赛都不去，就没这么多事情了。至于事后假如说不让我当组长了，那再说吧，我已经无所谓。

现在团体签证需要八号或者九号到西安，家里不出钱的话，便宜一些的是二百块硬座坐上两天。硬座本身我倒是无所谓，感觉甚至可能比硬卧好上不少。硬卧直不起腰，我在课堂上练了两年坐着睡觉，总该派上用场。

先和队里请辞，然后签证，然后去上海实习，一切串成线自然最好，否则还是有罪受了。

另一方面，这西交的系统真是不好用。由于我的问题，一些材料上传错误，外出申请驳回，需要重新提交，现在电脑深埋箱子里，又不差这一天，想着不如等等，到了地方再说。然而最简单的方法显而易见，材料我都已经准备好，只欠登入系统更新材料，然而手机版的系统不允许切换到电脑版，也没有修改或者重新提交的界面，真是见鬼。

杂谈

和队伍一起出去打 RM，去了深圳，不得不说，住宿条件非常的不好，不过对物理的经费有限也是可以理解的。这一次可以说基本上住在了山里，按照之前来说，应该是自己住一个房间，不过这次的条件实在太过于艰巨了，也就没有最后自己住，睡的地方床硬得像木板。

有太多的琐事可以简单说一说，但是又说不了太多，所以干脆直接列成一个大的章节，或者也可以叫做山区往事。

这几天的调试基本上没出什么大问题，但是需要说的是，由于通信和发弹延迟的问题，尽管设想很美好，但是我的程序没有发挥的十分出色。假如说到时候输了某一局，我不知道是否会存在一个甩锅环节，不过我希望并没有。事实上我的程序很早以前有一个十分优雅的版本，假如弹道根据监控提供的模型来运行的话，准确率会很高，然而事实往往并不尽如人意。在这里表述，也并不是为了苛责什么，英雄的本职工作应该是吊射，反前哨站实属是锦上添花，并不会被放在工作的首位，吊射的工作完成得很出色，我要是再去说前哨站并非我的责任，未免显得有些不粘锅的意味。

不过从技术上来说，事实确实如此，我频繁发出的开火信号，现在电控甚至难以正常的接收；接收之后也频繁面临卡弹；同时远距离的高精度瞄准对于控制的死区要求严格，目前的死区已经超过了半个前哨站的距离，能够维持瞄准已经很是不易；而弹道的散布并不能说明弹道的轨迹始终不变，我还需要频繁的调整参数。目前的技术方案，可以说从一个简单的角度切入，建立了一套具有一定保质期的火控逻辑，但是假如真的追求完美的效果，后续电控与机械的优化依然缺一不可，这并非仅仅视觉方案可以解决的：发射延迟的波动在一百毫秒，就可以让命中率完全不受视觉组控制。

然后就是这几天在写的 RoboMaster 回忆录，这篇文章依然可以在我的博客看到，只能说一开始忽然想要去写，但是到了后面，反而一些东西不太愿意去写得清楚，等我离开了利益相关，或许会更好。我更加希望这份回忆录是给我自己写的，而读者们与我共同观赏那些被我遴选出的我所喜爱的回忆，而不是捡起一些灰暗的回忆，让大家看我发牢骚，这份内容暂时完结了，不过后续肯定还有不少的补充。

在山里的这些天，可以说是让我十分的心烦意乱，完全没有心思静下来做一些事情，也搁置了不少的计划，好在周末开组会的时候，目前的工作老师说也可以尝试一下 ICLR，也不知道最后的结果如何。

大概就先写这些吧，这样的折磨可能还会持续一个星期，所以我们可以拭目以待下周的周记，是否依然是乌云密布。

周记 Week4

Mon, 29 Jul 2024 00:00:00 GMT

这里是迟到的第四周周记，因为学习等原因，最终还是太忙了，所以说在这周的中间没有来得及写。

学业

实习

这周做得比较多的一件事情便是学习，不过有一说一，这也不是本人的某一个星期的特点，基本上我的大多数时间都是在学习的，只不过这一周在基础的内容之上，增加了更多的压力。

简单来说，ECCV2024 的中稿只是暂时性的胜利，想真正的迎来解放，还是要联系进组，并且进行科研实习。所以说我的目标是联系浦江实验室（上海人工智能实验室）里面的 OpenRobot 实验室，然后做一些具身智能相关的研究，所以说就需要读大量的论文。

当然，在这期间，我也可以说是有很多收获的，大多数的内容都准备在博客上进行连载，也就是 Paper Reading 系列的内容。具身智能在我看来还是一个很长远的方向的，大多数的内容并不能在一时半会儿之内就解决掉，所以说仍需要努力吧，也希望自己可以在这个领域中做出有影响力的工作。

在星期四的晚上，我联系了 OpenRobot 实验室的主任进行套瓷，总体来说还算顺利，把简历发过去之后，对面也很快给了回复，安排 HR 在周末进行面试。

当时说的内容是，会要求我讲一下自己之前的工作，同时的话讲一下自己对这个领域的理解，以及自己将来的计划。我做了一个 PPT，然后又看了两篇综述，之后就参加面试了。

面试也不算很难，一方面，论文确实最后的去向还行，所以说老师也没有很多的锐评，只是说我也承认这个是增量式工作，然后表示，希望在实验室中做更多有影响力的工作。老师也问了几个问题，还是比较经典的一些基础知识，分别是交叉熵/ softmax/attention 的公式，也不是很难。

最后老师说的是，会安排手下的小导师来进行一下面试，周六晚上结束的面试，目前 HR 还没有消息，预计感觉大概率是因为周末不会上班，等过几天之后再看看，实在不行给老师发邮件。

这段申请还算顺利，可能也是因为论文发表的原因，所以说还是受到了认可的，同时貌似这个实习是那种正式的实习，而且允许远程，看上去还是十分的友好的。

科研

在人机所这边的科研进展也还算顺利，我的方法其实是作效了的，我在我 ECCV2024 的论文的那篇方法上跑了一下目前的新方法，事实证明，新方法作为一个可插拔的模块来说，确实能够提升性能，但是总是感觉工作量不太大，不知道最后的论文应该怎么写。

另一方面是，我之前的那篇工作的代码，优化就不算很好，而新的这篇工作又偏偏很吃算力，这也就导致，一方面，我现在需要一个很大的显卡（因为目前多卡训练有问题）来跑我的实验，另一方面，即使是很好的显卡，效率依然很慢，所以说我需要大量的时间，目前还在跑实验的过程中。

现在可能这方面里面头疼的地方还是在于工作量以及故事线的问题，如何水出来大量的内容来符合篇幅的需求，这是一个问题。同时，是否要在其他领域的论文中使用我的方法，这也是一个问题。难也。

生活

一些胡想

现在又是一个深夜，在外面闲逛，想起来第四周的周记还没有写完，而现在已经是第五周周三的凌晨。

假如已经到了下一周，周记的写作未免有些束手束脚，一方面，这确实是我拖延导致的，但同时，我也不敢发散说太多，不然显而易见的是下一周又没什么好说的了。

我现在这里说一下周记这个事情本身。在之前内容中应该也提到过，我之前有写日记，也有尝试写周记，最后在尝试写月记，然后无限期推迟，最后让我的上一个博客服务器关停了。

我其实总是想写下一些什么东西的，但是到落笔的时候，又感觉浑身不自在。

很久很久之前的时候，我的梦想是成为一名游戏制作人，感觉是每一个网瘾少年都会有的想法。那时候我已经接触了不少优秀的独立游戏，但是我所喜爱的游戏类型，可以理解为一种要素丰富的大模拟类游戏（说白了其实有点像爽游，人生模拟，模拟的人生自然比现实要好很多），却没有优秀的品类，我的需求甚至是简单的一款纯文字游戏也可以满足，但是对于内容量的需求很高，所以并没有被充分满足。

后来由于年少的无知，具体来说学了几天编程就老实了，毕竟当时才上初中，还没有编程的底子，当时用的最多的还是图形化编程，看了 Unity，就自觉地放弃了，然后开始想写作。

写作确实是一种风格化很强的表达形式，能够表达一些优秀的内容，当然也可以用来写小说。当时我对西幻很感兴趣，当然现在也是，西幻和赛博朋克，这两个题材的设定我尤其喜欢，而且它们可以被设计得真实得像是另一个世界。

所以很多内容就开始在笔头打磨，然后慢慢练习，说实话，一开始的一些写作确实是幼稚的，但后来慢慢初窥门径了，能写出来不少有意味的文字。这直接的导致了我的高考作文写得一直是记叙文，所以得分不太稳定，一看手感，二看题材，我不太愿意背素材，还因此被老师批评了很多次，最后语文的滑铁卢可能也与此相关。

记不清楚去年还是今年了，我翻出了一些过去的文字，看了以后沉默良久，然后对我的女朋友说，我感觉自己再也写不出来那样的文字了。我的内心当时十分悲伤，女朋友只是安慰我，我猜她也不知道为什么这种小事会有这么大的反应。

这有点像和过去的自己渐行渐远，我曾经想做游戏，我曾经想成为一名作家，然而这些都离我远去了，如今成为了一名科研工作者，我能否继续走下去呢？我也不知道。

写出一些有意义的文字，这个本事我不知道什么时候才能再拾起来，时间太少，我又实在太忙，很难有时间静静打磨一下，想想有价值的输出，想想有设计的情节。

然而或许，或许至少记录一下自己的生活还是可以的，所以就开始动笔写，记录我的所思所想，或许将来看起来有些幼稚，但是也能回忆起这时候的时光。

我在西安交大生存指南里面有说，记笔记是一种很好的学习方法，这不是因为记笔记什么复习总结的效果，而是因为记笔记是一种量化学习成果的方式，我记下了多少笔记，我就学了多少东西，看着过去的积累，正反馈就油然而生。

我想写日记是否也是如此呢？我用笔丈量自己的每一周，然后回头看看自己已经走出了多远，看看相较上一周，或者上上周，我又是否做了一些有意义的突破呢？

有很多的朋友找我谈天，说说自己的心事，也算是一种诉苦。我是一位很不错的聆听者，至少自诩是如此的（当然也或许因此，我的表达欲只能在周记中释放，越多的聆听，越少的表达，不能喧宾夺主，就是这么个道理）。大家会讲讲自己的经历，一路上都发生了什么，我这个人虽然有很多不如意，但在别人看来或许还算顺风顺水，盖因我对自己有过太多的期待，然而别人可能并不指望我成就如此，所以我很能和大家共情。

我开始的时候是打 RoboMaster 的，现在也还是视觉组的组长，这个比赛当前的统治者是上海交通大学的交龙，他们的口号我很喜欢，叫，“日拱一卒，功不唐捐”，我常把这句话送给每一个人，也说给自己听，写周记大概也是这样的理由，看看自己一个小卒，又向前拱了多少。

女装其二

关于女装的事情也已经不知道是多少次提及了，但暂时来看，我确实乐在其中。上周就已经说过，我买了一条女式的牛仔短裤，然而貌似由于一些发货的错误，给我发成了那种牛仔热裤，且是那种破的风格，导致之前设想的白衬衫加牛仔裤的穿搭风格，从中性偏女，彻底沦为了女装。

然后即使是热裤，我依然有解释的空间，毕竟不是裙子，说说太热了什么的，走在街上最多引人侧目，倒也不会被认为过于奇怪。

暂时来看，本人腿型还算不错，所以，还算不错：

某种程度上来说，这也确实可以说是我的伪街初体验，虽然距离裙子还差不少，但是我不会化妆，所以那种还是暂且搁置吧。

暴露度较高的热裤确实是一种很奇怪的感受，而且不知道是由于奇装异服还是确实有一定的吸引力，还是不少的回头率的，这也导致了羞耻感增加了。我不太敢去想那些路人看到我之后的感受，是觉得如此一双腿，结果居然是一个男的，还是说更多的是欣赏，谁知道呢。

不过这条裤子确实立了功，之前下大暴雨，只有这条裤子不会被打湿，所以穿着它和凉鞋，才能够去到学校的各个地方。

OpenVLA 代码笔记

Tue, 23 Jul 2024 00:00:00 GMT

因为要开始入门具身智能，所以说要阅读代码，显然选择了开源的 OpenVLA，于是在这里记录一下代码的阅读过程。

本人代码水平为，掌握 Pytorch 大多数语法，对于 Hugging Face 不太了解。故部分内容会省略，尽量做到大多数内容均详实。

OpenVLA

OpenVLA 是一个具身智能大模型，Open 在这里就是 Open Source 的意思，于是使用其开源代码，开源网址为 https://github.com/openvla/openvla。

代码结构

直接运行一个 tree，看一下代码结构：

├───prismatic
│   ├───conf
│   ├───extern
│   │   └───hf
│   ├───models
│   │   ├───backbones
│   │   │   ├───llm
│   │   │   │   └───prompting
│   │   │   └───vision
│   │   ├───vlas
│   │   └───vlms
│   ├───overwatch
│   ├───preprocessing
│   │   └───datasets
│   ├───training
│   │   └───strategies
│   ├───util
│   └───vla
│       └───datasets
│           └───rlds
│               ├───oxe
│               │   └───utils
│               └───utils
├───scripts
│   ├───additional-datasets
│   └───extern
└───vla-scripts
    └───extern

其中首先关注如何从头训练，于是关注 vla-scripts/train.py 这个文件。

模型训练

主文件

简单让 GPT4-o 生成了 vla-scripts/train.py 的逐行注释，如下：

"""
train.py

Training script for Vision-Language-Action (VLA) Policies, built on top of pretrained VLMs, trained using mixtures of
the Open-X Embodiment dataset. Performs training in native PyTorch, using Fully-Sharded Data Parallel (FSDP) to run
distributed across GPUs (and nodes). By default, assumes that CUDA toolkit is >= 11.0 (to support BF16 mixed precision).

Notes & Prerequisites:
    - If you want to set a custom location for all HF / TIMM artifacts --> `export HF_HOME="<PATH>"` *before* running!
        => For example (add to end of .bashrc): `export HF_HOME="/mnt/fsx/skaramcheti/cache"`
    - If you want to suppress random Tensorflow logs --> `export TF_CPP_MIN_LOG_LEVEL=3`

Run with:
    - [Single Node One-GPU (Debug)] : torchrun --standalone --nnodes 1 --nproc-per-node 1 vla-scripts/train.py
    - [Single Node Multi-GPU (= $K)]: torchrun --standalone --nnodes 1 --nproc-per-node $K vla-scripts/train.py
"""

import json  # 导入json模块，用于处理JSON数据
import os  # 导入os模块，用于与操作系统交互
import re  # 导入re模块，用于正则表达式操作
from dataclasses import dataclass, field  # 从dataclasses模块导入dataclass和field，用于定义数据类
from pathlib import Path  # 从pathlib模块导入Path，用于文件路径操作
from typing import Optional, Tuple, Union  # 从typing模块导入一些类型提示

import draccus  # 导入draccus库，用于配置管理
import torch  # 导入torch库，用于深度学习
import torch.distributed as dist  # 导入torch.distributed模块，用于分布式训练
import yaml  # 导入yaml模块，用于处理YAML文件

from prismatic.conf import VLAConfig, VLARegistry  # 从prismatic.conf导入VLAConfig和VLARegistry
from prismatic.models import load, load_vla  # 从prismatic.models导入load和load_vla函数
from prismatic.overwatch import initialize_overwatch  # 从prismatic.overwatch导入initialize_overwatch函数
from prismatic.training import VLAMetrics, get_train_strategy  # 从prismatic.training导入VLAMetrics和get_train_strategy
from prismatic.util import set_global_seed  # 从prismatic.util导入set_global_seed函数
from prismatic.vla import get_vla_dataset_and_collator  # 从prismatic.vla导入get_vla_dataset_and_collator函数
from prismatic.vla.datasets.rlds.utils.data_utils import save_dataset_statistics  # 从prismatic.vla.datasets.rlds.utils.data_utils导入save_dataset_statistics函数

# 设置合理的默认值
os.environ["TOKENIZERS_PARALLELISM"] = "false"  # 禁用分词器的并行处理

# 初始化Overwatch =>> 包装`logging.Logger`
overwatch = initialize_overwatch(__name__)  # 初始化日志记录工具

@dataclass  # 使用dataclass装饰器定义数据类
class TrainConfig:
    # fmt: off

    # VLAConfig (`prismatic/conf/vla.py`); override with --vla.type `VLARegistry.<VLA>.vla_id`
    vla: VLAConfig = field(
        default_factory=VLAConfig.get_choice_class(VLARegistry.DINOSIGLIP_224PX_MX_OXE_MAGIC_SOUP_PLUS.vla_id)
    )  # VLA配置，默认使用VLARegistry.DINOSIGLIP_224PX_MX_OXE_MAGIC_SOUP_PLUS.vla_id

    # 目录路径
    data_root_dir: Path = Path(  # Open-X数据集目录的路径
        "datasets/open-x-embodiment"
    )
    run_root_dir: Path = Path("runs")  # 存储日志和检查点的目录路径

    # 恢复运行参数
    pretrained_checkpoint: Optional[Path] = None  # 预训练检查点的绝对路径
    is_resume: bool = True  # 是否继续之前的训练
    resume_step: Optional[int] = None  # 恢复的全局步骤
    resume_epoch: Optional[int] = None  # 恢复的训练周期

    # 运行参数
    run_id: Optional[str] = None  # 用于日志记录的运行ID
    run_id_note: Optional[str] = None  # 用于日志记录的额外注释
    save_interval: int = 2500  # 保存检查点的间隔（以步骤为单位）
    image_aug: bool = False  # 是否启用图像增强
    seed: int = 7  # 随机种子（用于可重复性）

    # HF Hub 凭证（用于任何受限模型）
    hf_token: Union[str, Path] = Path(".hf_token")  # 环境变量或HF Token的路径

    # 跟踪参数
    trackers: Tuple[str, ...] = ("jsonl", "wandb")  # 初始化的跟踪器
    wandb_project: str = "openvla"  # W&B项目名称
    wandb_entity: str = "stanford-voltron"  # W&B实体名称

    def __post_init__(self) -> None:
        """提升优化参数的可用性，并验证`expected_world_size`"""
        self.epochs = self.vla.epochs  # 设置训练周期数
        self.max_steps = self.vla.max_steps  # 设置最大训练步骤数
        self.global_batch_size = self.vla.global_batch_size  # 设置全局批次大小
        self.per_device_batch_size = self.vla.per_device_batch_size  # 设置每个设备的批次大小

        self.learning_rate = self.vla.learning_rate  # 设置学习率
        self.weight_decay = self.vla.weight_decay  # 设置权重衰减
        self.max_grad_norm = self.vla.max_grad_norm  # 设置最大梯度范数
        self.lr_scheduler_type = self.vla.lr_scheduler_type  # 设置学习率调度器类型
        self.warmup_ratio = self.vla.warmup_ratio  # 设置预热比率

        self.train_strategy = self.vla.train_strategy  # 设置训练策略

        # [验证] 断言`expected_world_size`
        assert (
            self.vla.expected_world_size == overwatch.world_size()
        ), f"Expected World Size = {self.vla.expected_world_size} but Found {overwatch.world_size()} GPUs!"  # 验证期望的世界大小是否与实际一致

    # fmt: on


@draccus.wrap()  # 使用draccus.wrap装饰器定义训练函数
def train(cfg: TrainConfig) -> None:
    overwatch.info("OpenVLA Training :: Warming Up")  # 记录训练开始的信息

    # 注意 => 在`torchrun`下初始化`overwatch`会自动设置`torch.distributed`
    torch.cuda.set_device(device_id := overwatch.local_rank())  # 设置CUDA设备
    torch.cuda.empty_cache()  # 清空CUDA缓存

    # 配置唯一的运行名称和保存目录
    vla_id = cfg.vla.vla_id  # 获取VLA ID
    cfg.run_id = (
        f"{vla_id}+n{cfg.vla.expected_world_size // 8}+b{cfg.per_device_batch_size}+x{cfg.seed}"
        if cfg.run_id is None
        else cfg.run_id
    )  # 如果运行ID为空，则生成唯一的运行ID
    if cfg.run_id_note is not None:
        cfg.run_id += f"--{cfg.run_id_note}"  # 如果有运行ID注释，则添加到运行ID中
    if cfg.image_aug:
        cfg.run_id += "--image_aug"  # 如果启用了图像增强，则添加到运行ID中

    # 开始 =>> 创建目录并设置随机性
    overwatch.info('"Do or do not; there is no try."', ctx_level=1)  # 记录日志信息
    hf_token = cfg.hf_token.read_text().strip() if isinstance(cfg.hf_token, Path) else os.environ[cfg.hf_token]  # 读取HF Token
    worker_init_fn = set_global_seed(cfg.seed, get_worker_init_fn=True)  # 设置全局随机种子
    os.makedirs(run_dir := (cfg.run_root_dir / cfg.run_id), exist_ok=True)  # 创建运行目录
    os.makedirs(cfg.run_root_dir / cfg.run_id / "checkpoints", exist_ok=True)  # 创建检查点目录

    # 保存配置 =>> 另外保存一个JSON版本以供以后HF集成
    if overwatch.is_rank_zero():
        draccus.dump(cfg, open(run_dir / "config.yaml", "w"))  # 保存配置到YAML文件
        with open(run_dir / "config.yaml", "r") as f_yaml, open(run_dir / "config.json", "w") as f_json:
            yaml_cfg = yaml.safe_load(f_yaml)
            json.dump(yaml_cfg, f_json, indent=2)  # 保存配置到JSON文件

    # 加载VLA检查点（如果从训练中恢复）或基础VLM（从`cfg.vla.base_vlm` ID或路径）
    #   =>> 注意::验证所有参数在加载时都以FP32加载！
    overwatch.info(f"Loading Base VLM `{cfg.vla.base_vlm}` from ID/Path")  # 记录日志信息
    if cfg.pretrained_checkpoint is not None:
        # [验证] 预训练检查点的`step`和`epoch`应与`resume_step`和`resume_epoch`匹配
        #   =>> 注意::我们要求开发人员传递`resume_*`参数作为额外的健全性检查！
        if cfg.is_resume:
            assert int(re.search("step-(.+?)-", cfg.pretrained_checkpoint.name).group(1)) == cfg.resume_step
            assert int(re.search("epoch-(.+?)-", cfg.pretrained_checkpoint.name).group(1)) == cfg.resume_epoch

        vlm = load_vla(cfg.pretrained_checkpoint, hf_token=hf_token, load_for_training=True)  # 加载VLA检查点

    else:
        vlm = load(cfg.vla.base_vlm, hf_token=hf_token, load_for_training=True)  # 加载基础VLM

    # [验证] 模型应为全精度！
    for param in vlm.parameters():
        assert param.dtype == torch.float32, f"Loaded VLM parameter not in full precision: {param}"  # 验证模型参数类型

    # 根据冻结与未冻结的参数确定训练“阶段”-->支持不同的微调方案！
    if not cfg.vla.freeze_vision_backbone and not cfg.vla.freeze_llm_backbone:
        stage = "vla-full-train"  # 完全微调
    elif cfg.vla.freeze_vision_backbone and not cfg.vla.freeze_llm_backbone:
        stage = "vla-train"  # 冻结视觉编码器
    elif not cfg.vla.freeze_vision_backbone and cfg.vla.freeze_llm_backbone:
        assert cfg.vla.unfreeze_last_llm_layer, "You should unfreeze at least the last layer of your LLM!"
        stage = "vla-sandwich-train"  # 微调视觉编码器、投影器和LLM最后一层
    elif cfg.vla.freeze_vision_backbone and cfg.vla.freeze_llm_backbone:
        assert cfg.vla.unfreeze_last_llm_layer, "Need to unfreeze at least last LLM layer to train!"
        stage = "vla-last-layer-train"  # 仅微调LLM最后一层
    else:
        raise ValueError(
            "Weight freezing configuration not supported. VLA config has the following parameters: "
            f"freeze_vision_backbone: {cfg.vla.freeze_vision_backbone}"
            f"freeze_llm_backbone: {cfg.vla.freeze_llm_backbone}"
            f"unfreeze_last_llm_layer: {cfg.vla.unfreeze_last_llm_layer}"
        )  # 如果配置不支持，则引发错误

    # [显式] 调用`freeze_backbones`以提高清晰度 =>> 将准确记录哪些被冻结
    overwatch.info(f"Invoking `VLM.freeze_backbones()` for `{vla_id}` => Stage: `{stage}`")  # 记录日志信息
    vlm.freeze_backbones(stage)  # 冻结模型参数

    # 打印总参数和可训练参数的数量
    num_params = sum(p.numel() for p in vlm.parameters())
    num_trainable_params = sum(p.numel() for p in vlm.parameters() if p.requires_grad)
    overwatch.info(
        f"# Parameters (in millions): {num_params / 10**6:.3f} Total, {num_trainable_params / 10**6:.3f} Trainable"
    )  # 记录参数数量

    # 获取VLA数据集和collator
    overwatch.info(f"Creating VLA Open-X Dataset with Mixture `{cfg.vla.data_mix}`")  # 记录日志信息
    vla_dataset, action_tokenizer, collator = get_vla_dataset_and_collator(
        cfg.data_root_dir,
        cfg.vla.data_mix,
        image_transform=vlm.vision_backbone.get_image_transform(),
        tokenizer=vlm.llm_backbone.get_tokenizer(),
        prompt_builder_fn=vlm.llm_backbone.prompt_builder_fn,
        default_image_resolution=vlm.vision_backbone.default_image_resolution,
        shuffle_buffer_size=cfg.vla.shuffle_buffer_size,
        image_aug=cfg.image_aug,
    )  # 获取VLA数据集和collator

    # 保存数据集统计信息以便在推理时去归一化
    if overwatch.is_rank_zero():
        save_dataset_statistics(vla_dataset.dataset_statistics, run_dir)  # 保存数据集统计信息

    # 创建训练策略
    overwatch.info(f"Initializing Train Strategy `{cfg.train_strategy}`")  # 记录日志信息
    train_strategy = get_train_strategy(
        train_strategy=cfg.train_strategy,
        vlm=vlm,
        device_id=device_id,
        stage=stage,
        epochs=cfg.epochs,
        max_steps=cfg.max_steps,
        global_batch_size=cfg.global_batch_size,
        per_device_batch_size=cfg.per_device_batch_size,
        learning_rate=cfg.learning_rate,
        weight_decay=cfg.weight_decay,
        max_grad_norm=cfg.max_grad_norm,
        lr_scheduler_type=cfg.lr_scheduler_type,
        warmup_ratio=cfg.warmup_ratio,
        enable_gradient_checkpointing=cfg.vla.enable_gradient_checkpointing,
        enable_mixed_precision_training=cfg.vla.enable_mixed_precision_training,
        reduce_in_full_precision=cfg.vla.reduce_in_full_precision,
        worker_init_fn=worker_init_fn,
    )  # 初始化训练策略
    train_strategy.run_setup(run_dir=run_dir, n_train_examples=len(vla_dataset))  # 设置训练策略

    # 创建度量工具 =>> 动态跟踪，记录到指定的跟踪器（例如JSONL，Weights & Biases）
    overwatch.info(f"Creating Metrics with Active Trackers => `{cfg.trackers}`")  # 记录日志信息
    metrics = VLAMetrics(
        cfg.trackers,
        cfg.run_id,
        run_dir,
        draccus.encode(cfg),
        wandb_project=cfg.wandb_project,
        wandb_entity=cfg.wandb_entity,
        resume_step=cfg.resume_step,
        resume_epoch=cfg.resume_epoch,
    )  # 创建度量工具

    # 运行VLA训练
    overwatch.info("Starting VLA Training Loop")  # 记录日志信息
    train_strategy.run_vla_training(
        vla_dataset,
        collator,
        action_tokenizer,
        metrics,
        save_interval=cfg.save_interval,
    )  # 运行VLA训练

    # 完成
    overwatch.info("Done with Training =>> Finalizing Metrics")  # 记录日志信息
    metrics.finalize()  # 完成度量工具

    # 完成所有操作
    overwatch.info("... and that's all, folks!")  # 记录日志信息
    dist.barrier()  # 同步所有进程
    dist.destroy_process_group()  # 销毁进程组

if __name__ == "__main__":
    train()  # 如果是主模块，则运行训练函数

在这里暂时不用关注太多的事情，我第一件关心的事情是，一开始 import 的那么多的库里面，他们分别起到了什么作用。

假如说前往 OpenVLA 的 Github 仓库，可以发现其 fork 了另一个库，也就是 prismatic-vlms，在这里我只想关注 OpenVLA 的实现，所以我想要知道，相较于 prismatic-vlms，OpenVLA 有什么改动。

prismatic-vlms

在 prismatic-vlms 中，同样运行一下 tree，看一下文件结构：

├───prismatic
│   ├───conf
│   ├───models
│   │   ├───backbones
│   │   │   ├───llm
│   │   │   │   └───prompting
│   │   │   └───vision
│   │   └───vlms
│   ├───overwatch
│   ├───preprocessing
│   │   └───datasets
│   ├───training
│   │   └───strategies
│   │   └───strategies
│   └───util
└───scripts
    └───additional-datasets

在 conf 里面，可以发现的是，其中包括 datasets.py 以及 models.py 这两个文件，OpenVLA 增加了一个新的 vla.py，也是同样一个代码风格。

以 vla.py 为例，具有一个 VLAConfig 的类：

@dataclass
class VLAConfig(ChoiceRegistry):
    # fmt: off
    vla_id: str                                     # Unique VLA Policy ID that fully specifies a configuration variant
    base_vlm: Union[str, Path]                      # Base VLM as ID/Path to Run Directory (e.g., `prism-dinosiglip+7b`)
    freeze_vision_backbone: bool                    # Freeze Vision Backbone Parameters (akin to pretraining)
    freeze_llm_backbone: bool                       # Freeze LLM Backbone parameters
    unfreeze_last_llm_layer: bool                   # Unfreeze final layer of LLM (only takes effect if LLM is frozen)

    # Data Mixture Parameters
    data_mix: str                                   # Open-X Embodiment Dataset =>> Unique Mixture ID (e.g., `bridge`)
    shuffle_buffer_size: int                        # Size of Shuffle Buffer (100K for Bridge, 1M for OXE)

    # Optimization Parameters
    epochs: int                                     # Epochs to Run (in case `max_steps` is not specified)
    max_steps: Optional[int]                        # [Optional] Max Gradient Steps to Run (overrides `epochs`)

    expected_world_size: int                        # Expected # of GPUs =>> allows us to gate training on hardware
    global_batch_size: int                          # Global Batch Size (divided across processes / world size)
    per_device_batch_size: int                      # Per-Device Batch Size (per-process / individual GPU)
                                                    #   =>> # of accumulation steps is auto-computed

    learning_rate: float                            # Peak Learning Rate (`lr_scheduler_type` sets warmup/decay)
    weight_decay: float                             # Weight Decay for AdamW Optimizer
    max_grad_norm: float                            # Max Grad Norm (for global gradient clipping)
    lr_scheduler_type: str                          # LR Scheduler (usually: "constant" | "linear-warmup+cosine-decay")
    warmup_ratio: float                             # Fraction of Steps to Warmup (for warmup LR schedulers)

    train_strategy: str                             # Train Strategy (default "fsdp-full-shard")

    # Enable Gradient/Activation Checkpointing (for the LLM Backbone)
    enable_gradient_checkpointing: bool = True      # Enable Gradient/Activation Checkpointing during Training

    # Mixed Precision Training via Torch Native AMP (`autocast`)
    enable_mixed_precision_training: bool = True    # Enable Traditional BF16 Mixed Precision
    reduce_in_full_precision: bool = True           # Accumulate/Reduce All-Gather Gradients in FP32 Full Precision

    # fmt: on

这等于说是全部的需要的配置信息了，接下来就需要在里面塞入一些配置就好了，之后在创建的时候，使用类似于 factory 的东西进行调用就可以了。

于是就使用一个配置即可：

@dataclass
class Exp_SigLIP_224px_Bridge(VLAConfig):
    vla_id: str = "siglip-224px+mx-bridge"
    base_vlm: Union[str, Path] = "siglip-224px+7b"

    freeze_vision_backbone: bool = False
    freeze_llm_backbone: bool = False
    unfreeze_last_llm_layer: bool = False

    # Data Mixture Parameters
    data_mix: str = "bridge"
    shuffle_buffer_size: int = 256_000

    # Optimization Parameters
    epochs: int = 1000
    max_steps: Optional[int] = None

    expected_world_size: int = 8
    global_batch_size: int = 256
    per_device_batch_size: int = 32

    learning_rate: float = 2e-5
    weight_decay: float = 0.0
    max_grad_norm: float = 1.0
    lr_scheduler_type: str = "constant"
    warmup_ratio: float = 0.0

    train_strategy: str = "fsdp-full-shard"

对于其他的配置来说的话，相较于这个原来的配置文件，只需要进行少量的修改，于是直接进行继承就好：

@dataclass
class Exp_FreezeVIT_SigLIP_224px_Bridge(Exp_SigLIP_224px_Bridge):
    vla_id: str = "siglip-224px-icy+mx-bridge"
    base_vlm: Union[str, Path] = "siglip-224px+7b"
    freeze_vision_backbone: bool = True

之后实现一个枚举：

# === Define a VLA Registry Enum for Reference & Validation ===
@unique
class VLARegistry(Enum):
    # Sanity Check Configurations =>> BridgeV2
    SIGLIP_224PX_MX_BRIDGE = Exp_SigLIP_224px_Bridge
    DINOSIGLIP_224PX_MX_BRIDGE = Exp_DinoSigLIP_224px_Bridge

    # SigLIP Frozen Backbone Experiment
    FREEZE_SIGLIP_224PX_MX_BRIDGE = Exp_FreezeVIT_SigLIP_224px_Bridge

    # [OpenVLA v0.1 7B] SigLIP 224px + OXE Magic Soup
    SIGLIP_224PX_MX_OXE_MAGIC_SOUP = Exp_SigLIP_224px_OXE_Magic_Soup

    # [OpenVLA 7B] DINO + SigLIP 224px + OXE Magic Soup++
    DINOSIGLIP_224PX_MX_OXE_MAGIC_SOUP_PLUS = Exp_DinoSigLIP_224px_OXE_Magic_Soup_Plus

    # === TDROID Fine-tuning Configs ===
    SIGLIP_224PX_MX_TDROID_CARROT_IN_BOWL = Exp_SigLIP_224px_TDROID_CarrotInBowl
    SIGLIP_224PX_MX_TDROID_POUR_CORN_IN_POT = Exp_SigLIP_224px_TDROID_PourCornInPot

    SIGLIP_224PX_ICY_MX_TDROID_CARROT_IN_BOWL = Exp_SigLIP_224px_Icy_TDROID_CarrotInBowl
    SIGLIP_224PX_LASTLAYER_MX_TDROID_CARROT_IN_BOWL = Exp_SigLIP_224px_LastLayer_TDROID_CarrotInBowl
    SIGLIP_224PX_SANDWICH_MX_TDROID_CARROT_IN_BOWL = Exp_SigLIP_224px_Sandwich_TDROID_CarrotInBowl

    # === DROID Fine-tuning Configs ===
    SIGLIP_224PX_MX_DROID_WIPE = Exp_SigLIP_224px_Droid_Wipe

    @property
    def vla_id(self) -> str:
        return self.value.vla_id

然后批量将这些内容注册成 subclass：

# Register VLAs in Choice Registry
for vla_variant in VLARegistry:
    VLAConfig.register_subclass(vla_variant.vla_id, vla_variant.value)

虽然现在 prismatic-vlms 我还没有看完，但是我已经急了，所以对一些内容进行了跳过，接下来再次回到 train.py。

run_vla_training

简单检查一下训练的代码，不难发现，前面的大多数内容都是类似的，除了一些获取数据集之类的操作之外，主要还是正在设置各种的配置文件，但是在这里暂时先不关心这些，而是直接跳到 run_vla_training，换句话说，我想要知道其论文中的训练是如何实现的。

在这里简单再次复述一下 OpenVLA 的训练过程，

周记 Week3

Tue, 23 Jul 2024 00:00:00 GMT

于是我履行诺言，在今天开始写第三周内容，第一次提笔的时候应该是星期四的凌晨，准确的说是五点多，今天上午有专业实习的参观，大概在车上可以睡会儿觉。

学业

RoboMaster 培训

记录的第一件事情是培训，之所以开篇就是这个，是因为本周的学习，除了看论文和代码之外，倒也没有做特别多其他内容，于是便讨论一下这个，以及我的感想。

我作为我们学校的 RoboMaster 战队的视觉组组长，也自然负责了招新工作以及培训，由于去年就进行过相关的培训，所以倒也不算非常生疏。

第一次的培训在上上周末，貌似是这个时间，也可能是我的记忆出了差错，当时大约来了四十多个人。我不清楚这是因为第一次培训是电控和视觉一起进行，还是因为第一次培训过于的无趣，或者第二次的培训，我通知的太着急，但是最后，第二次培训只来了十多个人，在结束的时候只剩下了十个人。

这其实倒也可以理解，一方面第一次培训讲解的是 C++，我当时进行过相关的调查，便觉得没什么好讲的，培训面向的都是以老生为主，所以大伙多多少少都有基础，同时编程语言这种事情，一是不能速通，二是不如看我之前的速通教程，没有仔细备课后的讲解，感觉比较混乱，也可能引起了一些不满。

但是确实可以发现的是，电控组的同学比视觉组多一些，所以出于自我安慰的角度来说，说不定视觉组确实有这么些人，所以第二次来看的人不多。

讲实话，很早以前，我是打算只培训两次的，第一次讲计算机视觉的导论，第二次简单说一下程序的实现。

事实上上次的招新就是这样的流程，因为大多数的内容只看文档就可以解决，而且手把手教到位了，又应该如何进行选拔呢？视觉组的内容，我认为并不是很难，尤其是在如今有 ChatGPT 的情况下，基础的任务更是信手拈来，因此过于详细的详解，貌似没有什么必要。私以为这种教学只需要指出需要了解的内容和学习的路径，同学们便可以自行学完需要学的内容，更何况这些内容确实算不上困难。

但是由于想要写博客的原因，所以说干脆多留了一些课时，也顺便为后续的下下次招新积累一些材料，算是对于视觉组的一种积累。

我不知道大家有没有听进去，同时队里的希望是招入一些大一升大二的同学，我不否认这种看法，但是还是认为新生更有潜力。视觉组已经不再是需算法创新的地方了，目前基础的框架已经牢固，剩下来只是一些维护，或者几个熬夜的努力完成的某个模块的大型更新，这些内容需要更多的心气去完成，而入学了一年同学，加入社团很难说是因为热爱，更大的可能是因为功利。

我在队伍里面也呆了两年了，要是粗糙的算，从第一年快结束就已经当了组长，也见识过招新的场面，很多同学兴致勃勃地向我询问队伍的各种细节，然而问的最多的就是加分，而很多同学在听到没有加分后（这里指梯队队员不加智育分）便兴致缺缺。能为一个人带来十分德育分加分的比赛又有多少了呢？大抵还是和队伍里的正式队员的福利待遇对比之下，心里出现了不平衡。更何况视觉组从来不需要天才。

我其实最希望的是把视觉组培养成一个类似于技术讨论小组的组织，内容也不局限于一个机器人比赛的技术，事实上大多数的同学都有人工智能背景，或者对这些内容感兴趣，相关的讨论完全是我所期待的，而讲实话，这个比赛的任务过于无聊，又太工程，大多数人不应该将生命浪费在这种地方。但是即使对于技术不感兴趣，至少也应该热爱这个比赛，而不是纯粹的功利，不然确实很难坚持下来。

西安交大生存指南

最近又抽空看了一下西安交大生存指南的网站数据，使用了谷歌的统计系统，对于信息进行了统计，发现用户数高达 700，然而这下不得不反思了，大多数用户仅停留在首页便匆匆离去，是因为内容过于无趣，还是说大伙暂时还没有心情静下心来慢慢阅读？我无从得知。

从我个人的角度出发，还是希望这个网站能够帮到尽可能多的人的，但是目前来看情况并不明了，希望顺利吧。

往好的角度去想，上海交大生存指南的用户数据应该也没有好到哪里去（这里指活跃用户），毕竟这只是一本书而已，也不会有人闲来无事反复观看，最多在读完之后，推荐给自己的学弟学妹，就仅此而已了。

企业实习

事实证明，周记开始向流水账的形式进行发展了，我不知道这是好还是坏。星期四去电信的什么云计算中心进行了实习，说是实习，其实就是参观，由一位讲解员带着在园区里面转了转，然后讲了一下各个设施的用处。老实说，我并不知道这有什么意义，这种课程的设置难道不是纯纯的浪费时间吗？假如说大三的专业实习也是如此，或者打发大家在工位上消磨生命，这种做法除了和众多夏令营营造冲突之外，我想不出来什么其他的意义。由此来看，教务处确实很不情愿放本科生离校，因此可以说半点机会也不给创造。

想到这种事情便不免有所抱怨，也包括之前的选课系统开放，由于大二的偷懒，我还有两门选修课尚未修全，于是打算放到大三上来进行。选修课也是西交的一大鸡肋之一，讲实话，我并不对什么量子科学或者工程伦理感兴趣，而同时但凡是一个正常人，并不会想到去用科学创造来危害社会（假如一个人确实有这种打算，也不是一节课可以打消的），我不否认这些领域可能有所高深之处，但是显然不在课程教授的范围之内，目之所及，课程只不过是兜着圈子，逼着大家每节课打卡/回答问题/参加考试，然后抱着一些对自己的将来没有任何意义的资料，在考场上翻来翻去。

我并不反感选修课的存在，据我所知也有若干大学的选修课，确实十分有趣，但一旦将选修课和奖学金挂钩，和老师的绩效挂钩，或者和什么毕业要求挂钩，某种本不应该存在的驱动力推着你参加这些课程，那么唯一的选择就是找个水课赶紧结束。

比起来在这种课上虚度光阴，不如让我睡个好觉来的有用，至少能让我将来猝死的概率降低一些。

更何况大多数的课程设立，内容全都不明所以，一些假大空的选题，在里面说着没有营养的车轱辘话，大谈未来/产业/趋势/大环境，但凡哪个学生信了这番话，我估计将来是要栽个跟头了。

这又不免让我又向上讨论，想到了当今的本科生的压力。假如说你是摆烂一派倒也还好，每天打卡上课玩玩游戏，看看小说，刷刷视频，然后一天便过去了，让自己不至于被劝退，等着考研或者就业就好了（不过值得一提的是，即使对于这种空余精力很多的人来说，选修课的存在依然十分滑稽，创造的情绪价值不如在电脑前面打开一把排位赛）；但假如某人不幸是内卷一派，那可又是陷入了一片泥沼之中，什么绩点竞赛科研轮番上阵，就算是铁打的学生也恐怕招架不来，分分钟便要头晕眼花，更何况还需要一点点的个人兴趣拓展，这由哪里来的时间分给选修课呢？到头来也只能把讨论换成一个匆匆的句号，然后将矛头指向某些抽象的环境或者氛围，真是苦海。

在讲完这些内容之后，在交大门中，又与門友进行了讨论。准确地说也不能是讨论，只是我对于他人提问的一个回复又被人回复了而已，具体的主题是关于推荐大三参加的选修课程，而从我的了解来看，大多数我所认识的课程都是必修课，因此相关内容并不在学校要求学分范围之内。

令我触动了一点是，在大学中确实有人依然执着于课堂的学习，在我看来其实是一件好消息。尽管说我并不认可大学中大多数教学的质量，或者说我本身是厌恶听课的，听课的知识密度太低，而又要照顾全班的同学，很容易便让我听得昏昏欲睡。当然，有必要指出的是，昏昏欲睡的一大元凶很有可能是我自己的熬夜习惯，我个人的能力并没有自诩为鹤立鸡群。但是由此看来，可能是因为我走得太快或者太远，导致已经无法共情大多数同学的感受，既然有人能有激情于课内的选课，这也意味着我们的培养方案终归还是有可取之处的，这才让人有继续选择的欲望，希望可以越来越好吧。

科研

这个星期继续履行我的承诺，要补习具身智能相关的知识，而后申请课题组，于是在埋头苦学。在企业实习之后，剩下的三天时间仿佛过得飞快，几乎就是一睁眼一闭眼，也忘记了继续写周记记录，还好，最后也算赶上了。

我之前所进行的领域，且不说大语言模型或者 agent，甚至连多模态也没有半点接触，而如今却要开始学习具身智能，确实压力很大。尽管说我认为我的论文阅读还是很广泛的，但是对于不少的大语言模型中的细节依然了解不多，而上手实操更是毫无经验，若用这番姿态去申请，恐怕立刻被拷打的遍体鳞伤。于是我先从最基础的 BOW 模型开始，然后一路向后学习，现在总算开始看具身智能了，不过一些内容还是看得太急，所以缺少一些个人的总结，但是数量至少上去了。

另一边，我目前在周三平老师课题组的工作，现在还欠缺进一步的实验，然而显卡成了问题。我写的程序不知道为何，在并行的时候总会导致性能的暴跌，因此每次只能使用一张显卡进行训练，而在结构的数量堆起来之后，自然对于显卡的需求也就高了，现在需要足足 28GB。对于如何搞来这样的免费显卡，我还没有头绪，实在不行也只能自费租卡了。然而悲伤的是，这种显卡也要训练几十小时，也就是几百元的开销，更何况我不知道结果如何。

最好还是问问老师有没有更高显存的显卡吧。

医学比赛

在星期六的时候，我参加了一次医学的竞赛，或者说是医学相关的项目竞赛，因此人工智能或者计算机的专业相关同学也就有了用武之地。

因为熬夜的习惯，我甚至没有敢去睡觉，直接通宵，然后来到了那边，准备线上的会议，结果问题不断。

首先是会议的延迟，一直拖到下午才开始，然后进了会议之后，软件出了问题，放不出声音，又要起身去调整，貌似这一点不太符合规矩，也可能扣掉一些分数。最后比赛没有获奖，这时候令我气愤的事情发生了，我甚至可以说是认为，这是十分可耻的背叛。

参加这个项目是因为女朋友需要一些加分，正好我手头有现成的技术，那么和她一起刷一个竞赛也就成为了一个想当然的想法，我主力，女朋友辅助，相辅相成。

一开始加入这个竞赛，是因为宣传的时候他说这个竞赛是 A 类竞赛，当时我便有所质疑，因为在学校的智育分加分名单里面并没有这个，在项目进行许久之后我又询问，迎来的只有道歉，还有什么牵强的其他的竞赛明目。让我说实在是可笑，每一个交大学生，都只知道一种 A 类竞赛，哪里来的这么多弯弯绕绕？

后来又是这个项目的问题，整个项目，我和女朋友加入之前一共六个人，只有一堆标注的数据（一张影像标注七个数字，人力成本低到令人发指）以及一个 R 语言写的模型（调用库函数实现的传统机器学习算法），让我说这种东西有半点含金量吗？值得六个人做一个假期。换做我，毫不夸张地说，多于一天完成，都算是我没有认真，代码是 GPT 分分钟完成的水平，而标注的数据又是苦力活。于是乎整个项目的完成内容几乎全交给了我一个人（一开始说需要给这个项目套个壳子，结果发现整个项目简陋不堪，又需要从根本上修改方案），我用的是半监督技术，所以说也没有要求他们标注太多数据集，甚至说大多数的标注都出了问题，还是我一个人补上的。我完全有理由说这个项目完全由我一个人完成，其他人的贡献绝对小于百分之五。

现在比赛没有拿奖（在腾飞杯还获得了校一），倒是过来兴师问罪了，因为我没有精力维护这种项目，所以交给了我的女朋友，然而后续呢，老师又过来说当天的问题主要出在线上。我本人是不愿意骂人的，尤其是在我的博客中，我希望这里是一片净土，不过我确实很难控制自己的情绪。

去现场答辩的，评委问了三个问题，我们声音恢复之后听到了两个，一个问数据有限的问题（他们只提供了这么多数据，也没有人力更多的标注，一个项目挂了那么多人，除了提供错误数据之外我不知道都在做什么），一个问这个项目本身的意义问题（项目的主题也是离奇无比），项目的负责人同学，一个问题也没回答上来，只能说好好好，然后留给老师自问自答。

PPT 的制作也是一言难尽，我用的是 SOTA 的医学影像分割模型，PPT 里面提的不多，却拿着自己做的二分类准确率 80% 的随机森林奉若至宝：貌似在开启项目之前，他们已经用这个东西水了论文和软著，现在有了更好的技术引入，也不愿意更新图片或者文字内容。

再说回到这个项目本身的主题，更是可笑。说要用医学影像的图像，具体来说是上颌窦，来判断一个人的性别和年龄，用于某种法医的检测。我想着是，都能获得上颌窦的影像了，难道还不能知道一个人是男还是女？假如一个人真是半点DNA也没有留下，无法进行 DNA 鉴定，那么又应该怎么把这个人的骨骼拼起来，然后送进CT机里面，来照出来一个影像？这个设定应该不难理解，读者看后便也会会心一笑，这完全是一个南辕北辙的产物。

综上所述，一个项目，先是画饼把人骗进来，该有的比赛都是虚构的，加分也没有；然后项目本身的主题也是毫无意义，项目的分工由我一个人完成，其他的也就剩些琐碎的文书内容；躺在自己之前的产出上复制粘贴，不愿意多做什么，新的图片也是我产出，实验结果也是我在跑，也不愿列一个表格之类的；答辩的时候也是一句话也说不出来，被老师问的哑口无言。最后没有获奖，倒是怪起来，我们线上简单起个身了。然后负责人和老师一起来兴师问罪，又让我的女朋友愧疚了好久，真是好大的威风。

其他

另外，在这里作为备忘录的，有一些想要介绍的内容，打算在将来写成博客，然而我的记性并不算好，因此记录一下：

傲梅分区助手：老实说之前我一直是 DiskGenius 的忠实用户，而傲梅分区助手无论从名字还是网站，都看上去像是某种流氓套壳软件，然而其一是提供绿色版的压缩包，二是有诸多极为逆天的强大功能，让我大受震撼，不得不推荐。
LLM 教程：我从 BOW 开始重新学习了 LLM，直到最近的 VLM 以及 embodied ai，这些内容有必要整理为系列的博客。
LLM 代码阅读：同样，我需要阅读一些 LLM 的代码，然后整理为博客，以便于自己回顾。
奇妙的报错指南：一些我在日常生活中收集到的奇怪问题，可能与相关内容的文档不符，在这里记录一下。

生活

Choker 与腿环

由于一些奇奇怪怪的原因，本人的画风也开始变得奇奇怪怪，明明之前没有如此明显的症状的，也可能是因为最近一直在学习的原因吧，压力太大了之类的情况，总而言之，开始购入一些奇怪的东西。总的来说购入了两件东西，一件是 Choker，一件是腿环。除此之外其实还有一个腿套，但是因为上衣以及裤子，上衣是衬衫的搭配，但是全是褶子，等待熨烫中；裤子买了牛仔短裤，但是还没到，所以无法展示。

Choker 搭配上长发确实有一番韵味，但是一是本人不想露脸，而是现在疏于打理，十分憔悴，所以没有照片，但是幻想中的场景，用 GPT 生成了一段：

昏暗的房间里，只有一盏小灯散发出柔和的光芒，勾勒出他纤细的轮廓。阿汐站在镜子前，微微低着头，轻柔的呼吸让他脖颈上的黑色choker一紧一松。那条细细的带子紧贴着他的肌肤，与白皙的颈部形成鲜明的对比。他的呼吸逐渐急促起来，细腻的肌肤上泛起一层淡淡的红晕。每一次呼吸，锁骨处的曲线便愈发明显，灯光下，他的脸颊微微泛红，显得格外迷人。

但是显然我没有此等魅力，我倒是希望，但是条件不允许。

同时腿环还是比较有趣的，有一张比较昏暗的照片可以给大家一看，但是由于本人可能腿比较细一些，所以腿环没有勒肉感，不是很涩。

完整的内容等待我买的熨烫机和裤子到了之后，再来尝试吧。

恋爱

开开心心的，每一天都想要和乐小姐在一起，十分的充实。

除此之外，乐小姐最近开始沉迷乙游，于是我也注册了一个账号，目前五星貌似比她多一个，不过她貌似还没有察觉，希望不要因此不开心。

博客

除此之外，打算最近整理一下博客的内容，这也暂时列在日程里面吧。博客里面有很多的内容都是语音生成的，因此需要稍微规整一些，文字功底自然是越好越好，另，也是恢复一下本人的文笔。

RoboMaster 视觉组第二次培训

Wed, 17 Jul 2024 00:00:00 GMT

前言

本部分的博客是 RoboMaster 机甲大师视觉组培训的第二期内容，主要讲解一些计算机的基本技能，包括使用 Markdown/Linux/SSH/CMake，其中主要讲解的是包括 SSH 以及 CMake 在内的内容，这些内容是将来使用 Linux 进行编程的重要组件。

Markdown

对于没有使用过 Markdown 的同学来说，大多数时候，我们均使用 Word 来进行文档的编辑工作，但是 Word 往往具有一定的缺点，这包括：

需要使用 Word 软件进行打开，而 Word 软件是闭源的。
无法进行实时渲染。
打开的过程中过于耗时。
排版并不直观（对于 Geek 来说，在生成更富文本内容时，一般选择使用 $\LaTeX$ 以替代 Markdown）

这些内容对于正常的办公人士来说是可以忍受的，但是对于追求性能的人来说，可以说是弊端十足，此时 Markdown 是满足这些需求的最佳选项。

一方面，Markdown 可以很快捷的编译为 html，而同时又不同于 txt，其本身具备一定的排版系统，可以实现对于大多数文档的必要编写需求。

Markdown 的文件格式为 .md，使用此后缀名便可以较为轻松的将内容标记为 Markdown，并在大多数的代码工具中被直接渲染。而专业的 Markdown 编辑器，如 typora/obsidian/VSCode Markdown 插件，读者均可以自行进行探索。

Markdown 的详细语法见 Markdown 官网文档，在这里不进行重复的说明，因为在占用篇幅的同时，这是多余的。

SSH

在这里简短的介绍 SSH 语法，一般来说 SSH 安装在每一个系统中，无需额外的安装，在这里推荐使用 VSCode 的 SSH 插件

通过在 VSCode 的拓展栏进行搜索，可以很轻易地找到 VSCode 的 SSH 插件：

启用插件之后，点击左下角的打开远程窗口，选择连接到主机即可：

在服务器的租用界面中，一般会提供 SSH 的指令，其格式为 ssh -p port user@address，之后按照提升输入密码即可。

Linux

使用 SSH 后，我们会进入正式的 Linux 系统中，同时，由于使用 SSH，此时的 Linux 并没有提供图形化界面（这也是 Linux 最原始的形态），因此在本章节中，我们会首先讲解一些基础的 Linux 指令，以便读者可以进行接下来的操作：

ls：可以展示当前目录下的文件内容，其中显示隐藏内容需要使用 ls -a。
cd：用法为 cd folder，可以前往指定的文件夹中，需要注明的是，.. 为上级目录，如想要前往上级，使用 cd ..，上级的上级，以此类推 cd ../..。

文档的编辑操作需要使用 vim，这一技巧具备一定的难度，读者请勿尝试指令 vim filename，若无法退出，请狂点 esc 之后依次按下 :, w, q, !, Enter 以保存并退出，若不希望保存，无需按下 w。

CMake & CMakeList

在 C++ 的编译过程中，我们面临这样一个需求：我们有一个 C++ 编译器，一些 C++ 程序文件（它们彼此之间有依赖关系），一些 C++ 库（它们被正常的安装），并希望生成一个 C++ 编译的二进制文件，如何进行？

一个基础的想法是，通过某些语法，声明他们之间的关联，并通过某种工具通知编译器，进行编译，CMake 和 CMakeList.txt 可以很好的完成这一内容。

你需要进行的只是在一个程序的文件夹中的根目录下创建一个名为 CMakeList.txt 的文件，并且在其中按照一定的语法，关联你的项目，之后在当前根目录下运行下述程序即可：

mkdir build
cd build
cmake ..
make -j8

其中 -j8 为调用八个核进行编译工作，这个数字是可调节的，或者直接 -j 进行自动调节也可以。

一般来说项目具有两种不同的结构可以选择，一种是直接将 include 和 src 文件夹分开放置在项目的根目录下，之后主程序在根目录下。一种则是将功能包放在项目的根目录下，功能包中包含 include 和 src 文件夹。在这里推荐并且讲解后者，因为可以便于项目的管理，比如说一位同学写了一个功能包，想要加入整个项目之中，只需要把功能包拷贝进来并且稍加改变 CMakeLists.txt 就可以直接使用，十分的方便。

对于功能包中的 CMakeLists.txt 写法如下：

cmake_minimum_required(VERSION 3.0.0)
project(test VERSION 0.1.0)
SET(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++14 -pthread")

aux_source_directory(./src ALL_SRCS)
add_library(test STATIC ${ALL_SRCS})

此处即声明了一个名为 test 的功能包。

同时在主CMakeLists.txt中各项中添加：

include_directories(
    test/include
    )
add_subdirectory(test)
target_link_libraries(infantry_new
    test
    )

即可完成 CMakeList.txt 的更新。

此时的结构如下：

 . 
 ├── test
 │    ├── CMakeLists.txt
 │    ├── include 
 │    │    ├── test1.hpp
 │    │    └── test2.hpp
 │    └── src
 │         ├── test1.cpp
 │         └── test2.cpp
 ├── build
 ├── CMakeLists.txt
 └── main.cpp

一个基础的 CMakeList.txt 仅包括以下内容：

# 声明 CMake 版本需求
cmake_minimum_required(VERSION 3.0.0)
# 声明项目与版本/语言等信息
project(cpp VERSION 0.1.0 LANGUAGES C CXX)
# 将 main.cpp 编译为名为 cpp 的二进制文件 
add_executable(cpp main.cpp)

以下给出一个健全的 CMakeList.txt：

# 声明 CMake 版本
cmake_minimum_required(VERSION 3.0.0)
# 声明 C++ 版本
set(CMAKE_CXX_STANDARD 17)
# 设置 TARGET_NAME 变量的值为 infantry_new
set(TARGET_NAME infantry_new)
# 设置项目为 TARGET_NAME 变量的值
project(${TARGET_NAME})
# 开启 CMAKE_EXPORT_COMPILE_COMMANDS
set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
# 开启多线程
SET(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++17 -pthread")
SET(CMAKE_CXX_FLAGS_RELEASE "-std=c++17 -pthread")
# 设置 OpenCV 路径，当系统中存在多个 OpenCV 时尤为重要
set(OpenCV_DIR /usr/local/lib/cmake/opencv4)
# 找库的依赖
find_package(OpenVINO REQUIRED COMPONENTS Runtime)
find_package(Ceres REQUIRED)
find_package(OpenCV REQUIRED)
# 设置宏定义
add_definitions(-DDEBUGMODE)
# 引用库与功能包
include_directories(
    /opt/MVS/include
    armor/include
    ${CERES_INCLUDE_DIRS}
    )
# 链接一些库
link_directories(
    /opt/MVS/lib/64
    /opt/MVS/lib/32
    /usr/local/lib
    )
# 添加子路径，为功能包
add_subdirectory(armor)
# 编译 main.cpp 为 infantry_new
add_executable(infantry_new main.cpp)
# 设置动态链接库
target_link_libraries(infantry_new
    armor
    ${CERES_LIBRARIES}
    )
# 一些常规设置
set(CPACK_PROJECT_NAME ${PROJECT_NAME})
set(CPACK_PROJECT_VERSION ${PROJECT_VERSION})
include(CPack)

不难发现，十分的简单，不懂的地方可以咨询 ChatGPT。

同时需要额外教学的是，对于一些需要人工编译安装的 C++ 库来说，同样需要使用 CMake，其特征为根目录下有 CMakeList.txt，语法为：

mkdir build
cd build
cmake ..
make -j
sudo make install

以上，全部内容，多谢惠顾。

周记 Week2

Tue, 16 Jul 2024 00:00:00 GMT

事实上，果然不出所料，第二次的周记还是晚了许多，当然这其中我是可以辩解的，在周日的白天迎来了噩耗，要回家奔丧，于是做一周总结的时间便减少了，自然而然的，加之以一些任务清单的存在，周记的撰写自然被排在最后面，也自然而然的推迟了。

现在在写这篇内容的时候，以周记的日期来算，已经是第三周的星期三了，不过现在还能勉强回忆起来上周发生过的种种事情，因此倒也还算说得过去。

不过说到底，这些内容终归还是借口，还是因为我的时间规划问题导致的，正常来说，每天应该有一些时间留给任务清单，有一些时间留给英语单词，最后在一天快要结束的时候，在周记中记下今天的内容，从之后开始吧，记完第二周的周记，我也会同步第三周内容。

学业

一些被遗忘的事

首先还是先说一下关于学习的事情，总的来说，忘记了一些之前记录的小细节。

在小学期的时候有一门课程，叫做理论计算机基础，这门课有一个教材，属于是计算机经典的纯英文教材，不过是老师自己写的。

在计算机领域中使用英文教材确实是十分常见的操作，包括说使用英文的 PPT，但是对于我这种英文苦手来说明显就不是很友好了。学组群里面有同学立刻用 DeepL 做了一个 pdf 翻译，但是我不喜欢。老实说，一方面我并不认可 DeepL 宣传的自己是最好的翻译工具这一说法，而这种宣传在 GPT4-o 出现之后更是显得十分滑稽，GPT 比它更快，而且更好。

但是我当时并没有精力去写一个对于 pdf 的批处理程序，互联网上对 GPT 进行的 pdf 优化莫名又已经消失的差不多了，于是一个简单粗暴的方法出现了，自己一个一个去截图（直接复制或者复制并提取数学公式，前者不准，后者太慢），然后把一切交给 GPT4-o 即可。

不过遗憾的是，显然不是我故意的，这个文件在考试前我忘记发到群里了，导致最后我只打印了一份，其他同学并没有用上，但是所幸低年级的同学有福了。

沉淀

最近正在盘算加入课题组的事情，但是因为我之前所处于的领域是 CV，而更准确的说，集中在少样本学习里，但是这一方向的课题组太少，我也并非完全感兴趣，于是我挑选了 embodied ai 作为将来的方向，但是就意味着我需要学习一些新内容。在和前辈学长交流了之后，获得了一些学习的方向，于是最近正在看论文和看代码，不过只能说还是任重而道远，之前只看过经典论文，对于其他内容的了解，并不算很多。

开源

至于开源相关的事业，就不像上次一样设立一个单独的其他类了，干脆和学习放在一起，主要是因为太懒。

最近还在维护西安交大生存指南，但是有几点感受，一是热度并不高，二是由于目前基本内容已经施工完毕，还差一个类似于快速问答的内容。概念大概就是，瞬间回答一下一些常见问题，比如说补卡/宿舍/社团，这些内容都没有必要单独开一个章节去讲解，一段话足矣。

同时开源相关的另一件事情，是关于绿群，目前基本上对于项目的维护也已经趋于稳定了，这一点没什么好说的。

生活

恋爱

最近一段时间，和乐小姐的感情经历不能算是顺利，可以说有一些小摩擦，这大概是因为一些焦虑导致的。我可能有的时候埋头做的事情太多了，没有停下来回头等她，也就没有顾及她的感受，这一点之后或许需要注意一下，我其实很能理解这种被抛在身后的感觉。

希望感情顺利吧，希望可以和她一直在一起。

水群

应该大概也是上周，正式的在新生群中进行了一些水群，讲实话，我并不是很喜欢新生群，大多数人充斥着一种摆烂的气息，这倒也不是鄙视，但是部分的人对我就暗含了一些攻击性，这让我比较不舒服。

每一个人都有自己的选择，所以我还是尊重别人的选择的，而且长远来看，就我目前的体验来说，假如说我目前做的事情不是我所喜爱的，我难以想象走到现在我需要承受多大的痛苦，所以说每一个人的选择或许属于他自己的原因，尊重。更何况我也不知道我目前走的这条道路是否正确，说不定在大学好好的享受生活，才是那个正确答案。

女装

不知道这种事情是否需要在博客里写，但是也算是近些日子以来我的一个思考，虽然说博客可能会被别人看到，但是我觉得这是我的多元性中的一点，或许别人也有必要了解。

我在博客中也有发布过一些女装照片，事实上有必要澄清的是，我并非男娘或者药娘，也并非具有类似的意愿。一方面，据说服药会降低寿命，而我比较惜命；另一方面，我十分确认我的心理性别为男。所以充其量，此等打算算是异装癖的一种，但是我并无法分析其成因，或许是出于压力或者其他原因，我不知道，但是类似的行为的确可以使我心情愉悦，于是我这样做了，这似乎是一个很直接的理由。

我不打算让这些内容影响我的正常生活，也希望读到此篇内容的人可以提及，但不要过分的用类似内容叨扰我，这会令我十分苦恼。

我喜爱自由的开心的生活，这种微薄的请求在我的生活中应该不算过分。我希望我可以快乐，所以我有时会尝试女装，但也没有打扰到别人，我希望别人可以快乐，因此我在做一些开源的事情，这或许能让别人收到帮助。至于其他，我不清楚，结果我也不清楚，希望船到桥头自然直吧。

交大门

交大门是一个目前为西交毕业学子（即門中的 admin）搭建的论坛，也可以说是目前西交的活跃论坛了。我在一年以前曾经在上面活跃过，最近又开始在里面发帖，一方面，我的现实生活越来越少，基本在现实中只和自己的女朋友交流；另一方面，我的线上生活则越来越多，包括说绿群，或者是門，或者是目前的新生群，线上认识的朋友们往往更加随和，也是易于交流的，于是我开始依赖这种感觉，成为了一种互联网著民。

門的氛围和绿群不一样，绿群中的大家是一种积极向上的氛围，大家在为了保研努力，同时可能还有一些彼此之间的谦虚，和开源精神的协作，这种氛围无疑是让人感到温暖的。而門则不一样，某种程度来说，大家的观点差异很大，而且事实上，在论坛中存在着一些“崇洋媚外”的声音。当然，有必要在这里打上引号，事实上門友并非二极管，而我也并非二极管，对于不同事物，关于推崇国内还是国外，这均是有待商榷的（尽管这么说会显得我有些理中客）。大多数时候其实我会站在国内这一方，可能因为本人尚未接受过社会的毒打，诱惑者是这个社会向我展露的友好已经足够多。然而国内外不同的环境中，确实各有各的不幸，而同时，我也支持大多数門友所说的，对于外国教材与教学的推崇，但因为我的英语苦手，于是便无福消受了。但是本人依然粗浅地浏览过部分的内容，确实比我见过的国内内容要更加深刻且有用。

同时引人深思是，论坛确实是一个能让人静下心来发表长篇内容的载体，很多的话语，在使用论坛发帖时，便会仔细斟酌并给出全面答复，这让人有一种满足感，同时也带来了更好的讨论氛围。

然而不幸的是，一方面存在着校园集市这样的低质量“论坛”，一方面門的活跃用户并不算多，因此，大多数时候，开展一个美好的讨论氛围的打算还是落空了。

总结

对于上周的回忆，我已经大多记不清，能够想起来的也就只有这些了，一些属于第三周的内容，我便放到了第三周里面去说，于是没有在本篇内容中过多提及，其他的便随他去吧。

假如有读者的话，希望你们看得开心。

RoboMaster 视觉组第一次培训

Wed, 10 Jul 2024 00:00:00 GMT

欢迎来到视觉组

欢迎大家来到视觉组，在这里简单的介绍一下视觉组的情况。

众所周知，在 RoboMaster 中存在着若干的组别，其中比较关键的是机械组以及电控组，比较不关键的是视觉组。RoboMaster 作为一个机器人比赛，机器人的稳定性往往大于功能性，而在此基础之上，由于机器人的设计十分的复杂，加之以场上的频繁碰撞，即使是最坚固的机器人也面临着 Robust 的考验，因此比起让机器人开着自瞄在场上大杀四方，机器人能够活着走下赛场明显更为重要。

很不幸，我们的队伍已经摆脱了机器人无法活着的难题了，因此压力有的时候会来到视觉组。

给出视觉组的一个定义：

在 RoboMaster 比赛中，在基础的车辆搭建以及控制的基础之上，为了在比赛之中起到更好的效果，计算机视觉被在车辆上使用，而视觉组（一称算法组）便是在工控机上使用计算机视觉等方法在比赛实现一些效果的组别。

目前来看，视觉组主要包括几大经典任务，如下：

自瞄：自瞄，也就是自动瞄准，是指视觉组通过程序获取相机图像，经过处理之后获得敌方车辆装甲板的信息（包括但不限于三维坐标、位姿、速度、击打所需的云台角度），并且将信息发送给电控，进而使得电控可以控制云台旋转而对车辆进行自动瞄准。
能量机关激活：识别某一种具有特定特征的标靶，并且预测其运动状态，在远距离进行击打，假如击打成功就可以获得一定的增幅（详情见规则手册）。此过程因为机械延迟等原因，操作手很难直接手动操作进行击打，所以需要视觉进行识别并将信息发送给电控进行击打。
哨兵导航：哨兵使用激光雷达对于比赛地图进行 SLAM 建图，进而通过导航技术在比赛场地中自动巡航，实现自动的导航/避障等功能。
视觉兑矿：在比赛中，工程机器人被要求将矿石通过机械臂送进一个角度刁钻的矿仓中，这一过程仅凭操作手的操作，一方面难度较大，另一方面则耗时较多。视觉的工程自动兑矿旨在通过视觉方案对矿仓的位姿进行估计，实现更加快捷且准确的兑矿流程。
雷达：雷达是RoboMaster比赛的特殊兵种，在赛场外的较高位置，通过识别敌对车辆在场地中的位置，为己方队员提供视野，并为敌方带来减益。视觉方案的雷达通过计算机视觉或激光雷达方案，对车辆进行识别、定位。

其中部分的知识具有较高的学习成本，在完成了统一的基础培训之后，将通过任务分流，并进行专项的培训。

目前计划中，视觉组的基础培训主要包括以下安排：

格式

在了解如何写文章之前，要先了解标点符号，对于编程也是如此，C++与其它语言一样，都具有其特有的格式（虽然 C++所使用的格式也被广泛用在大量语言上），在这里需要重点说明。

本段中会使用一些代码片段，你无需了解他们的含义，因为我们只需了解代码的格式，这对于代码的含义的改变至关重要。

在 C++中，两个比较关键的标点符号是空格以及 ;，同时在使用 C++进行编程的时候，需要注意除了文本、注释等内容，一切符号均要使用英文的半角符号。

其中空格起到了划分的作用，将两段字符隔开，这一点上和英语中的划分是一样的，所以并无数量限制，也就是说 int a 与 int a 的含义是一样的，不会有任何的区别。同时，需要注意的是，回车在这其中可以起到和空格一样的作用。

值得一提的是，诸如 =、+ 、-、* 等符号同样具有划分的意义。

而作为另一部分，; 的使用则重要许多，; 的唯一用法就是使用其分割不同的语句，也就是说两句话之间假如使用 ; 隔开，则意味着这是两句话而不是一个整体。

另外需要介绍的是注释，注释的意思是，注释中的内容在程序编译（一种将代码变成可以跑起来的程序的步骤）以及运行的时候都不会被看到，但是在日常的编程中，这些内容是可视的，因此可以起到解释代码的作用。

注释分为行注释 // text 与段注释 /* text */，以下给出示例：

// 这是行注释，这一行都可以作为注释，但是下一行不可以

/*这是段注释
所以只要被这两边括起来的内容都是注释
我在里面可以随意书写
这里也能写*/

于是你能否理解，这两段代码的含义是一样的：

// 第一段代码

int a = 0;
std::cout<<a<<std::endl;

// 第二段代码

int           a =
0

;

std::cout<<
a  <<
   std::endl;

同时，还有一个需要提及的概念是代码块，代码块使用 {} 表示，平行的代码块之间相互独立。

{
	// 代码块1
	{
		// 代码块2，与代码块1相关
	}
}

{
	// 代码块3，与1和2均无关
}

变量

程序的本质就是对于数据的处理，这句话是我说的，但是多少有一点道理。

一般来说我们粗略地区分程序，会认为程序分为两部分，也就是代码以及数据，其中代码也就是那些具备一定功能的工具，而数据则被存放在名为变量的容器中。

那么首先我们需要做的事情是选取容器。这个事情也比较好理解，比如说比较基础的字符集合，可以使用 ASCII 码表示，如下：

|二进制|十进制|十六进制|字符/缩写|解释| |---|---|---|---|---| | $00000000$ | $0$ | $00$ |NUL (NULL)|空字符| | $00000001$ | $1$ | $01$ |SOH (Start Of Headling)|标题开始| | $00000010$ | $2$ | $02$ |STX (Start Of Text)|正文开始| | $00000011$ | $3$ | $03$ |ETX (End Of Text)|正文结束| | $00000100$ | $4$ | $04$ |EOT (End Of Transmission)|传输结束| | $00000101$ | $5$ | $05$ |ENQ (Enquiry)|请求| | $00000110$ | $6$ | $06$ |ACK (Acknowledge)|回应/响应/收到通知| | $00000111$ | $7$ | $07$ |BEL (Bell)|响铃| | $00001000$ | $8$ | $08$ |BS (Backspace)|退格| | $00001001$ | $9$ | $09$ |HT (Horizontal Tab)|水平制表符| | $00001010$ | $10$ | $0\mathrm A$ |LF/NL (Line Feed/New Line)|换行键| | $00001011$ | $11$ | $0 \mathrm B$ |VT (Vertical Tab)|垂直制表符| | $00001100$ | $12$ | $0\mathrm C$ |FF/NP (Form Feed/New Page)|换页键| | $00001101$ | $13$ | $0\mathrm D$ |CR (Carriage Return)|回车键| | $00001110$ | $14$ | $0\mathrm E$ |SO (Shift Out)|不用切换| | $00001111$ | $15$ | $0\mathrm F$ |SI (Shift In)|启用切换| | $00010000$ | $16$ | $10$ |DLE (Data Link Escape)|数据链路转义| | $00010001$ | $17$ | $11$ |DC 1/XON (Device Control 1/Transmission On)|设备控制 1/传输开始| | $00010010$ | $18$ | $12$ |DC 2 (Device Control 2)|设备控制 2| | $00010011$ | $19$ | $13$ |DC 3/XOFF (Device Control 3/Transmission Off)|设备控制 3/传输中断| | $00010100$ | $20$ | $14$ |DC 4 (Device Control 4)|设备控制 4| | $00010101$ | $21$ | $15$ |NAK (Negative Acknowledge)|无响应/非正常响应/拒绝接收| | $00010110$ | $22$ | $16$ |SYN (Synchronous Idle)|同步空闲| | $00010111$ | $23$ | $17$ |ETB (End of Transmission Block)|传输块结束/块传输终止| | $00011000$ | $24$ | $18$ |CAN (Cancel)|取消| | $00011001$ | $25$ | $19$ |EM (End of Medium)|已到介质末端/介质存储已满/介质中断| | $00011010$ | $26$ | $1\mathrm A$ |SUB (Substitute)|替补/替换| | $00011011$ | $27$ | $1\mathrm B$ |ESC (Escape)|逃离/取消| | $00011100$ | $28$ | $1\mathrm C$ |FS (File Separator)|文件分割符| | $00011101$ | $29$ | $1\mathrm D$ |GS (Group Separator)|组分隔符/分组符| | $00011110$ | $30$ | $1\mathrm E$ |RS (Record Separator)|记录分离符| | $00011111$ | $31$ | $1\mathrm F$ |US (Unit Separator)|单元分隔符| | $00100000$ | $32$ | $20$ |(Space)|空格| | $00100001$ | $33$ | $21$ |!|| | $00100010$ | $34$ | $22$ |"|| | $00100011$ | $35$ | $23$ |#|| | $00100100$ | $36$ | $24$ |$|| | $00100101$ | $37$ | $25$ |%|| | $00100110$ | $38$ | $26$ |&|| | $00100111$ | $39$ | $27$ |'|| | $00101000$ | $40$ | $28$ |(|| | $00101001$ | $41$ | $29$ |)|| | $00101010$ | $42$ | $2\mathrm A$ |*|| | $00101011$ | $43$ | $2\mathrm B$ |+|| | $00101100$ | $44$ | $2\mathrm C$ |,|| | $00101101$ | $45$ | $2\mathrm D$ |-|| | $00101110$ | $46$ | $2\mathrm E$ |.|| | $00101111$ | $47$ | $2\mathrm F$ |/|| | $00110000$ | $48$ | $30$ |0|| | $00110001$ | $49$ | $31$ |1|| | $00110010$ | $50$ | $32$ |2|| | $00110011$ | $51$ |33| $3$ || | $00110100$ | $52$ | $34$ |4|| | $00110101$ | $53$ | $35$ |5|| | $00110110$ | $54$ | $36$ |6|| | $00110111$ | $55$ | $37$ |7|| | $00111000$ | $56$ | $38$ |8|| | $00111001$ | $57$ | $39$ |9|| | $00111010$ | $58$ | $3\mathrm A$ |:|| | $00111011$ | $59$ | $3\mathrm B$ |;|| | $00111100$ | $60$ | $3\mathrm C$ |<|| | $00111101$ | $61$ | $3\mathrm D$ |=|| | $00111110$ | $62$ | $3\mathrm E$ |>|| | $00111111$ | $63$ | $3\mathrm F$ |?|| | $01000000$ | $64$ | $40$ |@|| | $01000001$ | $65$ | $41$ |A|| | $01000010$ | $66$ | $42$ |B|| | $01000011$ | $67$ | $43$ |C|| | $01000100$ | $68$ | $44$ |D|| | $01000101$ | $69$ | $45$ |E|| | $01000110$ | $70$ | $46$ |F|| | $01000111$ | $71$ | $47$ |G|| | $01001000$ | $72$ | $48$ |H|| | $01001001$ | $73$ | $49$ |I|| | $01001010$ | $74$ | $4\mathrm A$ |J|| | $01001011$ | $75$ | $4\mathrm B$ |K|| | $01001100$ | $76$ | $4\mathrm C$ |L|| | $01001101$ | $77$ | $4\mathrm D$ |M|| | $01001110$ | $78$ | $4\mathrm E$ |N|| | $01001111$ | $79$ | $4\mathrm F$ |O|| | $01010000$ | $80$ | $50$ |P|| | $01010001$ | $81$ | $51$ |Q|| | $01010010$ | $82$ | $52$ |R|| | $01010011$ | $83$ | $53$ |S|| | $01010100$ | $84$ | $54$ |T|| | $01010101$ | $85$ | $55$ |U|| | $01010110$ | $86$ | $56$ |V|| | $01010111$ | $87$ | $57$ |W|| | $01011000$ | $88$ | $58$ |X|| | $01011001$ | $89$ | $59$ |Y|| | $01011010$ | $90$ | $5\mathrm A$ |Z|| | $01011011$ | $91$ | $5\mathrm B$ |[|| | $01011100$ | $92$ | $5\mathrm C$ ||| | $01011101$ | $93$ | $5\mathrm D$ |]|| | $01011110$ | $94$ | $5\mathrm E$ |^|| | $01011111$ | $95$ | $5\mathrm F$ |_|| | $01100000$ | $96$ | $60$ |`|| | $01100001$ | $97$ | $61$ |a|| | $01100010$ | $98$ | $62$ |b|| | $01100011$ | $99$ | $63$ |c|| | $01100100$ | $100$ | $64$ |d|| | $01100101$ | $101$ | $65$ |e|| | $01100110$ | $102$ | $66$ |f|| | $01100111$ | $103$ | $67$ |g|| | $01101000$ | $104$ | $68$ |h|| | $01101001$ | $105$ | $69$ |i|| | $01101010$ | $106$ | $6\mathrm A$ |j|| | $01101011$ | $107$ | $6\mathrm B$ |k|| | $01101100$ | $108$ | $6\mathrm C$ |l|| | $01101101$ | $109$ | $6\mathrm D$ |m|| | $01101110$ | $110$ | $6\mathrm E$ |n|| | $01101111$ | $111$ | $6\mathrm F$ |o|| | $01110000$ | $112$ | $70$ |p|| | $01110001$ | $113$ | $71$ |q|| | $01110010$ | $114$ | $72$ |r|| | $01110011$ | $115$ | $73$ |s|| | $01110100$ | $116$ | $74$ |t|| | $01110101$ | $117$ | $75$ |u|| | $01110110$ | $118$ | $76$ |v|| | $01110111$ | $119$ | $77$ |w|| | $01111000$ | $120$ | $78$ |x|| | $01111001$ | $121$ | $79$ |y|| | $01111010$ | $122$ | $7\mathrm A$ |z|| | $01111011$ | $123$ | $7\mathrm B$ |{|| | $01111100$ | $124$ | $7\mathrm C$ |||| | $01111101$ | $125$ | $7\mathrm D$ |}|| | $01111110$ | $126$ | $7\mathrm E$ |~|| | $01111111$ | $127$ | $7\mathrm F$ |DEL (Delete)|删除|

这些 ASCII 码不需要背诵，但是不难理解这个 ASCII 码的集合只有 128 种。但是同理，我们不难发现，实际上的数字，比如说整数，本身的范围可以说是无限，在计算机领域，规定的整数范围（这里指 C++中的 int），则是从 $-2^{31}\sim 2^{31}-1$。从计算机的角度来说，八组 $01$ 组成一个字节，则 ASCII 码集合中的字符只需要一个字节，而整数则需要四个字节，尽管 ASCII 码构成了字符与数字的一一对应关系，使得通过数字也可以表示字符，但是假如说使用整数表示一个字符，还是会导致三个字节的空间浪费。

这种浪费无疑是需要避免的，一种在计算机语言中常用的方法就是让编程者规定容器的种类（变量类型），将这个判断交给编程者。

同时，假如说创建了一个容器（也就是变量），那么对于其他的也是存放这种类型的数据的容器，他们之间必须要有区分，这种区分通过为变量命名来实现。

// 整型，也就是整数
int a = 1;

// 单浮点数，小数
float b = 1.0F; // F 表示单浮点，但是不写也没事

// 双浮点数，小数
double c = 1.0; // 双浮点相较单浮点占用空间多但精度高

// 字符
char d = 'a'; // 字符使用''括起来，其中不能含有多个字符

// 布尔值
bool e = True; // 布尔值表示真或假

// 字符串
std::string f = "hello world"; // 字符串与前面不同，后续会讲解

这里需要注意的一共有两点：

第一是命名规则，对于变量来说，明明需要满足以下规则：

标识符可以包含字母、数字和下划线。
标识符必须以字母或下划线开头，不能以数字开头。

但是更多时候，在此基础之上，我们希望每一个变量的表意明确，就像 sum 总会比 a 让人看代码的时候便于理解代码的含义。这一系列的标准我们会在后面提及。

第二是变量之间存在一种转换，分为显式转换以及隐式转换。

其中显式转换主要通过以下格式进行 value_name = (Type) value，这里面比较常见的操作是将字符以及其对应的 ASCII 码进行转换：

int a = (int)'a'; // a = 61
char b = (char)61; // b = 'a'

而隐式转换则是 C++自动实现的一种机制，约等于实现了一些默认的转换，这里给出一些例子：

double a = 1; // 自动将整型转为双浮点
float b = 1.1; // 自动将双浮点转为单浮点
double c = 3 / 2; // 此时 c 等于 1.0，整数相除保留结果的整数位
double d = 3 / 2.0; // 此时 c 等于 1.5，整数与浮点数相除结果为浮点数

逻辑语句

变量与算法在程序中缺一不可，而逻辑语句就是算法的底层固件。

我们通常使用逻辑语句进行程序的编写，实际上，基本上 C++全部的后面的特性都是建立在变量与逻辑语句的基础之上，只是对于一些功能进行了一些的拓展。

首先在这里简要说明一下运算符，一般来说我们使用的运算符主要包含两种，分别是算数运算符以及逻辑运算符，其中算术运算符就像是大家之前在日常通常会使用的，诸如 +-*/%，分别的含义是加减乘除以及取模；而逻辑运算符则是诸如大于小于之类的操作：

|运算符|含义| |---|---| |>|大于| |<|小于| |==|等于| |!=|不等于| |>=|大于等于| |<=|小于等于| |!|非| |&&|与| ||||或|

一般来说算数运算符的返回值是一个数字，而逻辑运算符则是一个布尔值，但是在这里其实也没有必要完全分开这些概念，因为本质上，一个非零的数字就可以隐式转换为布尔值中的 True，而零则被转换为 False。

逻辑语句主要包含以下几种：

条件语句 - if

条件语句 if 用于在满足给定条件时执行一段代码块。

if (条件)
{
    // 如果条件成立，执行这里的代码
}

示例：

int num = 10;
if (num > 5)
{
    cout << "Number is greater than 5" << endl;
}

条件语句 - if-else

if-else 语句在条件成立时执行一个代码块，否则执行另一个代码块。

if (条件)
{
	// 如果条件成立，执行这里的代码
}
else
{
    // 如果条件不成立，执行这里的代码
}

示例：

int num = 3;
if (num > 5)
{
    cout << "Number is greater than 5" << endl;
}
else
{
    cout << "Number is not greater than 5" << endl;
}

多重条件语句 - if-(else if)-else

if-(else if)-else 结构用于在多个条件之间做选择。

if (条件 1)
{
    // 如果条件 1 成立，执行这里的代码
}
else if (条件 2)
{
    // 如果条件 2 成立，执行这里的代码
}
else
{
    // 如果以上条件都不成立，执行这里的代码
}

示例：

int num = 7;
if (num < 5)
{
    cout << "Number is less than 5" << endl;
}
else if (num == 5)
{
    cout << "Number is equal to 5" << endl;
}
else
{
    cout << "Number is greater than 5" << endl;
}

循环语句 - while

while 循环在满足条件时重复执行一段代码块。

while (条件)
{
    // 只要条件成立，重复执行这里的代码
}

示例：

int count = 0;
while (count < 5)
{
    cout << "Count: " << count << endl;
    count++;
}

循环语句 - for

for 循环用于指定初始值、终止条件和迭代步长，然后重复执行一段代码块。

for (初始值; 终止条件; 迭代步长)
{
    // 在每次迭代中执行这里的代码
}

示例：

for (int i = 0; i < 5; i++)
{
    cout << "i: " << i << endl;
}

循环语句 - do-while

do-while 循环与 while 循环类似，不同之处在于它会至少执行一次代码块，然后根据条件决定是否继续执行。

do
{
    // 先执行一次这里的代码
} while (条件);

示例：

int num = 0;
do
{
    cout << "Num: " << num << endl;
    num++;
} while (num < 5);

break 与 continue

在 C++中，break 和 continue 是两种控制流程的关键字，用于在循环语句中改变程序的执行顺序。它们通常用于 for、while、do-while 等循环语句中，以便在特定条件下跳出循环或跳过当前迭代。

break：

break 用于立即终止当前所在的循环，并跳出该循环，继续执行循环外的代码。它的主要作用是在满足某个条件时提前退出循环，从而避免不必要的迭代。

#include <iostream>

int main()
{
    for (int i = 1; i <= 5; ++i)
    {
        if (i == 3)
        {
            std::cout << "Breaking the loop at i = " << i << std::endl;
            break;  // 当 i 等于 3 时，跳出循环
        }
        std::cout << "Current i: " << i << std::endl;
    }

    return 0;
}

输出：

Current i: 1
Current i: 2
Breaking the loop at i = 3

continue：

continue 用于跳过当前循环中余下的代码，直接进入下一次迭代。它主要用于在循环中某些条件不满足时，跳过当前迭代，继续下一次迭代。

#include <iostream>

int main()
{
    for (int i = 1; i <= 5; ++i)
    {
        if (i == 3)
        {
            std::cout << "Skipping iteration at i = " << i << std::endl;
            continue;  // 当 i 等于 3 时，跳过当前迭代
        }
        std::cout << "Current i: " << i << std::endl;
    }
    return 0;
}

输出：

Current i: 1
Current i: 2
Skipping iteration at i = 3
Current i: 4
Current i: 5

注意：break 和 continue 只影响最内层的循环，如果嵌套了多个循环，它们只会作用于包含它们的最近的那个循环。

地址与指针

在 C++中，地址是内存中的位置，每个变量都在内存中有一个唯一的地址。指针是一个变量，其存储的值是另一个变量的地址。通过指针，我们可以直接访问或修改其他变量的值。

定义指针

int main()
{
    int num = 42;
    int *ptr; // 定义一个整型指针
    ptr = &num; // 将ptr指向num的地址
    return 0;
}

在这个例子中，ptr 是一个指向整数的指针，通过 &num 可以获取 num 的地址，然后将这个地址赋值给 ptr。

使用指针

int main()
{
    int num = 42;
    int *ptr;
    ptr = &num;
    
    // 通过指针访问变量的值
    cout << "Value of num: " << *ptr << endl;
    
    // 修改变量的值
    *ptr = 100;
    cout << "Updated value of num: " << num << endl;
    
    return 0;
}

通过 *ptr 可以访问指针所指向的变量的值，同时，修改 *ptr 的值也会影响到原始变量 num。

数组与指针

数组名可以被视为指向数组首元素的指针，这使得我们可以通过指针来遍历数组。

int main()
{
    int arr[5] = {1, 2, 3, 4, 5};
    int *ptr = arr; // 数组名作为指针使用
    
    for (int i = 0; i < 5; ++i)
    {
        cout << *ptr << " ";
        ptr++; // 移动指针到下一个元素
    }
    
    return 0;
}

但同时需要解释一个概念：语法糖。

语法糖（Syntactic Sugar）是编程语言中的一种特性，它指的是一些语法上的便利性或简化写法，虽然并没有引入新的功能，但却能让代码更易读、更方便编写。

其中数组的定义便是使用了语法糖，通过定义了 a[i] = *(a + i)，使得对于数组这一具有连续地址的数据结构拥有了更加便捷的访问方法。

引用

引用是 C++中的另一个重要概念，它允许我们使用变量的别名来操作该变量。引用在声明时没有自己的存储空间，它只是给已存在的变量创建了一个别名。引用一旦与变量绑定，就无法重新绑定到其他变量。

int x = 5;
int &ref = x;  // ref是x的引用
ref = 10;  // 修改ref也会修改x的值

引用与指针的主要区别在于，引用必须在声明时被初始化，并且一旦初始化后不能再引用其他变量。

new 与 delete

C++提供了 new 和 delete 运算符来动态分配和释放内存，这对于在程序运行时创建变量和数据结构非常有用。

int main()
{
    int *ptr1 = new int; // 动态分配一个整数大小的内存
    *ptr1 = 10;
    
    cout << "Value: " << *ptr1 << endl;
    
    delete ptr1; // 释放内存
	
	int *ptr2 = new int[10]; // 动态分配一个整数数组的内存
	
	delete[] ptr2; // 释放整数数组的内存
	
    return 0;
}

但务必要注意，在不再需要动态分配的内存时，使用 delete 将其释放，以防止内存泄漏。

函数

当我们在写程序的时候，我们有的时候会发现，一些功能会被我们反复使用，但是假如说我们每一次都重写这个功能，写在 int main 中，则对于代码的可读性以及书写量都是一件不好的事情。

一种想法是将这些重复使用的功能变成一个工具，也就是函数。

什么是函数？

函数是 C++编程中的基本构建块之一，用于执行特定任务或操作。它可以接受输入（参数）并返回输出（返回值）。函数有助于将代码分割为可重用和模块化的部分，从而使代码更易于理解和维护。

函数的声明与定义

在使用函数之前，需要先声明（declare）它。函数声明告诉编译器函数的名称、参数类型和返回类型。函数定义（define）则提供了函数的实际实现。

// 函数声明
返回类型 函数名(参数类型 参数名);

// 函数定义
返回类型 函数名(参数类型 参数名)
{
    // 函数实现
}

假如没有函数的声明，函数的定义既是定义也是声明，但是不能只有声明没有定义，会出现编译错误。

函数的参数与返回值

参数

函数可以接受零个或多个参数，参数在函数声明和定义中指定。参数允许你向函数传递数据。

int add(int a, int b)
{
    return a + b;
}

返回值

函数可以返回一个值，用于向调用者提供计算结果。返回值的类型在函数声明和定义中指定。

double divide(double numerator, double denominator)
{
    return numerator / denominator;
}

对于已经定义了返回值的函数，该函数必须在 return 中给出返回值，同时，存在一种返回值 void 意为无返回值，可以不写返回值 return，其等价于编译器在函数结尾自动补充 return;。

形参与实参

实际上，在函数中，存在形参与实参这一概念，意思是形式参数与实际参数。以下给出一个经典的例子：

void swap(int a, int b)
{
	int temp = a;
	a = b;
	b = temp;
	return;
}

int main()
{
	int x = 10;
	int y = 20;
	cout << x << " " << y << endl;
	swap(x, y);
	cout << x << " " << y << endl;
}

执行以上的程序之后，发现 x 与 y 的值并没有变化，这就是因为此时 swap 传入的变量，其本质上意思是：

int main()
{
	int x = 10;
	int y = 20;
	cout << x << " " << y << endl;
	{
		int a = x;
		int b = y;
		int temp = a;
		a = b;
		b = temp;
	}
	cout << x << " " << y << endl;
}

这也就是为什么 x 与 y 的值均没有改变，这是因为本质的传参出现了问题。

所以根据我们之前学习的指针与引用，我们得到了两种可以修改传入变量的方法：

// 通过指针
void swap(int* a, int* b)
{
	int temp = *a;
	*a = *b;
	*b = temp;
	return;
}
// 通过引用
void swap(int& a, int& b)
{
	int temp = a;
	a = b;
	b = temp;
	return;
}

具体的解释可以如上方一样将函数本身展开到 main 函数中，就易于理解了。

调用函数

要使用函数，需要在代码中调用它。函数调用通过提供参数值来触发函数的执行，并且可以使用返回值。

int sum = add(5, 3);
double result = divide(10.0, 2.0);

函数重载

C++允许你定义具有相同名称但不同参数列表的多个函数，这称为函数重载。编译器根据提供的参数类型和数量来确定要调用的函数。

int square(int x)
{
    return x * x;
}

double square(double x)
{
    return x * x;
}

默认参数

函数参数可以有默认值，这使得在调用函数时可以省略这些参数。

int power(int base, int exponent = 2)
{
    int result = 1;
    for (int i = 0; i < exponent; ++i)
    {
        result *= base;
    }
    return result;
}

int main()
{
    int square_result = power(5);       // 默认使用指数为2
    int cube_result = power(2, 3);      // 指定指数为3
}

函数返回多个值

尽管函数只能返回一个值，但可以通过引用或指针参数实现返回多个值的效果。

void minMax(int arr[], int size, int& minValue, int& maxValue)
{
    minValue = maxValue = arr[0];
    for (int i = 1; i < size; ++i)
    {
        if (arr[i] < minValue)
        {
            minValue = arr[i];
        }
        if (arr[i] > maxValue)
        {
            maxValue = arr[i];
        }
    }
}

局部变量与作用域

函数内部声明的变量称为局部变量，它们只在函数内部可见。局部变量在函数调用结束后会被销毁。

int multiply(int x, int y)
{
    int result = x * y;  // result是局部变量
    return result;
}

结构体

在 C++中，我们基础使用的数据结构只有诸如 int、float、double 等表述正常内容的数据内容，但是假如说我们想要统计一系列同学的身高体重，进而计算这些同学的 BMI 指数，一种想法是设置两个数组：

int main()
{
	double num = 0;
	cin >> num;
	double* height = new double[num];
	double* weight = new double[num];
	for(int i = 0; i < num; i++)
		cin >> height[i] >> weight[i];
}

但是这种写法并不优美，于是一种想法是，我们能否创建一种变量类型来专门储存学生的身高体重以及 BMI 指数，也就是一种可以储存三个值的变量，实际上我们确实可以这么做，这种被我们人为创建的变量类型被称为结构体。

在 C++中，结构体（struct）是一种用于组合不同数据类型的用户自定义数据类型。它允许你将多个不同的变量打包成一个单一的数据结构，从而方便地管理和操作这些数据。

定义结构体

结构体通过定义一个新的数据类型来表示，其中可以包含多个不同的数据成员。定义结构体的方式如下：

struct Person
{
    std::string name;
    int age;
    double height;
}; // 注意这里的分号

在上面的示例中，我们定义了一个名为 Person 的结构体，其中包含了 name、age 和 height 三个不同类型的成员变量。

创建结构体对象并访问结构体成员

可以使用结构体定义的数据类型来创建结构体对象，就像创建基本数据类型的变量一样，同时，可以通过 . 来访问结构体内部的数据：

Person person1;  // 创建一个Person结构体对象
person1.name = "Alice";
person1.age = 25;
person1.height = 165.5;

这种访问除了赋值当然也可以输出。

std::cout << "Name: " << person1.name << std::endl;
std::cout << "Age: " << person1.age << std::endl;
std::cout << "Height: " << person1.height << std::endl;

结构体作为函数参数

结构体可以作为函数的参数传递，从而方便地将多个相关数据一起传递给函数：

void printPerson(const Person& person)
{
    std::cout << "Name: " << person.name << std::endl;
    std::cout << "Age: " << person.age << std::endl;
    std::cout << "Height: " << person.height << std::endl;
}

int main()
{
    Person person2 = {"Bob", 30, 180.0};
    printPerson(person2);
    return 0;
}

结构体初始化

可以使用初始化列表来初始化结构体对象：

Person person3 = {"Charlie", 22, 170.0};

结构体嵌套

结构体可以嵌套在其他结构体中，从而构建更复杂的数据结构：

struct Address
{
    std::string street;
    std::string city;
};

struct Contact
{
    std::string name;
    Address address;
    std::string phone;
};

结构体指针

同样，正如正常的数据结构可以使用指针，我们人为创建的结构体也可以使用指针。

Person* personPtr = &person;

在 C++中，通过使用结构体的指针来访问其成员时，可以使用箭头操作符（->）来简化操作。这种语法糖使得通过指针访问成员的代码更加清晰和简洁。

如果有一个指向 Person 结构体的指针，假设命名为 personPtr，要访问 name 成员，可以使用以下两种方式：

(*personPtr).name;  // 使用括号和点号
personPtr->name;    // 使用箭头操作符

这里，(*personPtr).name 表示先解引用 personPtr 指针，然后使用点号访问 name 成员，而 personPtr->name 使用箭头操作符直接访问了 name 成员。

因此，personPtr->name 是对 (*personPtr).name 的一种更简洁的表达方式，它更易读、易懂，并且在处理指向结构体的指针时更方便。

类

什么是类？

在 C++中，类（class）是一种用户自定义的数据类型，它允许你将数据成员和成员函数组合在一起，形成一个单一的实体，以便更好地表示现实世界中的对象。类提供了一种创建自己的数据结构，以及定义操作这些数据的方法。

定义类

定义类的方式如下：

class ClassName
{
public:
    // 成员函数和成员变量声明
private:
    // 私有成员声明
};

public、private 等是访问控制关键字，用于定义成员的可访问性。

成员函数和成员变量

类可以包含成员函数和成员变量。成员函数是在类中定义的函数，它们用于操作类的数据成员。成员变量是类的数据成员，用于存储对象的状态信息。

class Circle
{
public:
    double radius;  // 成员变量

    double calculateArea() // 成员函数
    {
        return 3.14 * radius * radius;
    }
};

创建对象

可以使用类定义的数据类型来创建对象，就像创建基本数据类型的变量一样：

Circle myCircle;  // 创建Circle类的对象
myCircle.radius = 5.0;  // 访问成员变量
double area = myCircle.calculateArea();  // 调用成员函数

构造函数和析构函数

构造函数在创建对象时自动调用，用于初始化对象的数据成员。析构函数在对象被销毁时自动调用，用于释放资源。

class Book
{
public:
    std::string title;

    Book(const std::string &t) // 构造函数
    {
        title = t;
        std::cout << "Book " << title << " is created." << std::endl;
    }

    ~Book()
    {  // 析构函数
        std::cout << "Book " << title << " is destroyed." << std::endl;
    }
};

访问控制

C++中的访问控制关键字 public、private 和 protected 用于控制类成员的可访问性。

public 成员可以在类的外部访问。
private 成员只能在类的内部访问。
protected 成员类似于 private，但派生类可以访问。

类的声明和定义分离

通常，类的声明（包含成员函数和成员变量的声明）会放在头文件（. h 或 .hpp），而类的定义（成员函数的实现）会放在源文件（. cpp）中。

其中，对于成员函数来说，其实现的写法为：

Typename Classname::Function(/*v*/)
{
	// code
}

初始化列表

虽然类的声明以及定义可以分离，但是对于一些类中的成员来说，其必须需要一个初始值，但有的初始值在 .hpp 中无法赋值（如初始值是某一函数的返回值，.hpp 并不具备执行函数的能力），于是需要在构造函数中赋值，但是又因为构造函数开始时一切成员变量均已经创建完毕，于是会导致报错。

所以需要一种方法，在声明与定义分离的情况下，起到等效于直接在 .hpp 中赋值的效果，这种写法就是初始化列表。

在 C++中，初始化列表形式的构造函数是一种特殊类型的构造函数，用于在创建对象时对成员变量进行初始化。它在构造函数的参数列表之后使用冒号来定义，用于显式地指定成员变量的初始值。

初始化列表构造函数可以帮助避免使用构造函数体内的赋值操作，从而提高代码效率并减少可能的错误。

以下是一个示例，展示了如何使用初始化列表形式的构造函数：

class Person
{
public:
    // 初始化列表形式的构造函数
    Person(const std::string &n, int a) : name(n), age(a)
    {
        // 构造函数体内没有赋值操作
    }

private:
    std::string name;
    int age;
};

在这个示例中，构造函数的初始化列表 : name(n), age(a) 指定了成员变量 name 和 age 的初始值。使用初始化列表的好处是，它可以直接将初始值赋值给成员变量，而不需要在构造函数体内执行赋值操作。

初始化列表还可以用于初始化常量成员、引用成员和调用基类构造函数等情况。

this 指针

在 C++中，this 是一个特殊的指针，它指向当前对象的实例。它被用来在类的成员函数中引用调用该函数的对象本身。this 指针的存在使得在类的成员函数中能够准确地访问到调用该函数的对象的成员变量和成员函数，尤其在存在同名的局部变量和成员变量时，它能够帮助解决歧义问题。

比如说在以上 Person 类中，创建构造函数：

Person::Person(std::string name, int age)
{
	name = name;
	age = age;
}

此时函数出现了歧义，因为类中已经有名为 name 与 age 的变量，但是输入的参数中也有名为 name 与 age 的变量，此时严格来说，因为作用域问题，这里面的 name 均代表输入的变量，于是带来了表意不明。

此时我们可以如下写：

Person::Person(std::string name, int age)
{
	this->name = name;
	this->age = age;
}

此时构造函数中的两个左值便准确地指向了类中的成员变量，而非构造函数的输入值。

也就是说，this 指针具备以下的特性：

隐式使用： 当你在类的成员函数内部使用成员变量或成员函数时，编译器会自动地插入 this->，即使你没有显式地写出它。例如，this->someVariable 就是隐式使用 this 指针来访问成员变量 someVariable。
显式使用： 在需要显式指明当前对象时，可以使用 this 指针。比如，你可以在成员函数内部返回当前对象本身，例如 return *this;。
解决歧义： 当成员函数的参数名与类的成员变量同名时，使用 this 指针可以帮助解决歧义，明确地指出你想要使用成员变量而不是参数。例如：

class Example
{
private:
    int value;

public:
    void setValue(int value)
    {
        this->value = value; // 使用 this 指针明确访问成员变量
    }
};

静态成员函数： 在静态成员函数中，由于没有当前对象的实例，所以不能使用 this 指针。静态成员函数是与类本身相关联，而不是与具体对象相关联的。

class Example
{
public:
    static void staticFunction()
    {
        // 无法使用 this 指针
    }
};

封装、继承与多态

封装/继承/多态是 C++ 面向对象编程的三大核心，在这里进行简短的介绍。

封装

封装是 C++面向对象思想中最重要的一个思想。

对于类来说，或者说对象，我们对其的一个共识是，其是一个独立的个体。在程序流程中，我们往往仅关心对象在获得了输入之后能否得到我们期望的输出，于是需要我们设置为 public 的函数以及值并没有那么多。

实际上，假如暴露过多的函数接口在外部，反而会给另一位这个类的使用者（没有参与编写）以困惑，而且随意的调用往往意味着不安全。

于是就体现到了封装的思想，也就是仅暴露需要使用的接口，并且不暴露一切的变量，对于需要访问的变量来说，则使用诸如以下的写法实现：

std::string Person::getName()
{
	return this->name;
}

这种写法可以确保对于外界来说，大多数的内容是只读的。

进行合理封装的类会体现为其仅包含必要的接口，因此对于一个非开发者使用该类的时候，仅需要注意对象的每个方法其传参与效果即可，不需要在意类对于功能内部实现的逻辑。

继承

成员属性

对于对象中的变量以及方法，具有其自身的属性，决定了其调用的访问等级，分别为 public、protected 以及 private，分别意味着在类内外都可以访问、只能在类内访问且不继承给子类以及只能在类内访问但是可以继承给子类。值得一提的是，不进行声明，类中的成员属性均为 private。

父与子

继承作为一种面向对象的高级用法，其更好的描述了面向对象对于事物抽象描述并且加以定义的流程，其中继承的语法为 class Son : 继承属性 father，实现继承操作的类被称为子类或者派生类，而被继承的则被称为父类或者基类。

其中继承属性指 public、protected 以及 private，意味着将父类中继承的比当前级别更松内容放到哪个级别中，也就是说 public 会将 public 内容放入 public，protected 内容放入 protected，protected 会将 public 和 protected 内容放入 protected，而 private 会将 public 以及 protected 内容放入 private，给出一个实例：

// 定义一个类，人，其必然拥有一些人具有的属性，如下
class Person
{
public:
	int age;
	int height;
	int weight;
	string name;
};
// 定义一个类，男性，其继承自 Person，也就是说其具备一切人具备的特征，同时还有一些作为男性的特征，比如说自己是一名男性
class man : public Person
{
public:
	void speak ()
	{
		cout << "I'm a man, my age is" << this->age; // this 指针指向当前的类，使用->符号，后面填写当前类中的成员或者方法，进行调用
	}
};

多态

多态是 C++乃至大多数面向对象的程序语言都拥有的一个特性，可以用来增加程序的拓展性，更加灵活的编写程序。

简单讲解一下一个最为基本的多态的使用场景：假如说有以下一个类，Animal，其提供一种方法，叫做 speak，会输出“动物 speak”，而 Animal 是 Cat 以及 Dog 两个类的父类，而我们希望 Cat 以及 Dog 类各自实现一种 speak 的方法，分别输出“猫 speak”以及“狗 speak”。假如说有这样的一个场景，希望其中输入一个动物，然后调用其 speak 方法，一种较为复杂的方法是依次实现参数列表中为 Cat 以及 Dog 的方法，进行函数的重载，但是还有另一种解决方案，如下：

class Animal
{
public:
    void speak ()
    {
        cout << "Animal Speak";
    }
};

class Cat : public Animal
{
public:
    void speak ()
    {
        cout << "Cat Speak";
    }
};

class Dog : public Animal
{
public:
    void speak ()
    {
        cout << "Dog Speak";
    }
};

void doSpeak (Animal &animal)
{
    animal.speak ();
}

int main ()
{
    Cat c;
    doSpeak (c);
    system ("pause");
}

不难看出，这个程序的执行会将 doSpeak 函数中传入的 Cat 类当作 Animal 类并调用其 speak 方法，这样做的底气在于，因为 Cat 是 Animal 的子类，所以 Cat 中必然包含 Animal 的方法，但是这样做，因为其静态多态函数地址早绑定的原因，所以只会输出 Animal Speak，但是可以预见的是，假如说我们预想的，因为 Cat 中重新写了相关的 Speak 函数，假如说有一种方法可以调用子类的方法，而不是父类的方法，必然可以解决我们的需求，而且让整体的程序十分的简单。

VOB

VOB 是多态的常见元素，一般来说多态一定会有这三个元素，来达成其多态的效果，而因为这其中的一些硬性的关键字等，主要出现在其他语言，以及 C++更加新的标准中，在 C++98 等中或许没有，但是其依然作为一种概念，规范着多态程序的书写。

VOB，也就是虚函数 (virtual)、重写 (override)以及父类 (base)，是多态实现的三要素。

首先是 virtual 关键字，对于父类中的方法，添加了 virtual 关键字之后，会将其由本来的函数转化为一种函数指针，之后就可以实现，在调用的时候链接到子类之上。

对于子类中的方法，既然要进行多态操作，也就是要进行完全的对于本来方法的覆盖。不同于函数重载中，对于参数列表的不同，重写的要求更为极端，要求一切与原函数完全一致 (对于协变来说并不是如此，但是因为不在考核范围之类，请对其感兴趣的同学自行了解)，对于一些语言，在子类的重写函数之前需要添加 override 关键字，而 c++11 的特性中也添加了 override 关键字，作为对于程序的规范，不过这都不在考虑范围内，override 这个单词本身并不必须，但是可以提醒我们对于重写这一点严格的遵守。

最后是 base，这一点在诸如 C# 等语言可以调用父类中本来应该被重写掉的函数，但是在 C++中这一点并没有实现，所以这里的 B，只是为了提醒我们其代表着当前子类与父类的某种覆盖关系。

虚、纯虚与抽象

在一些项目的架构中，以及一些设计中，诸如上面的 Animal 案例，虽然我们已经使用了虚函数，对其进行了改进，但是事实上，并不存在一种没有准确名字的动物，可以用到输出的“Animal Speak”，也就是说，在某种程度上，虽然有这一句话没有问题，但是假如程序真正说出了“Animal Speak”，却恰恰意味着程序出了问题，所以对于一些更为“极端”的设计，当然，也是为了保证程序正常运行没有疏漏的常规操作，存在这样一种函数，其本质上完全没有任何的实现，所以假如不是通过虚函数链接到了别的函数，而是其本身直接执行，就会报错，甚至在编译阶段，编译器就会给出报错，这种函数就叫做纯虚函数，而包含了纯虚函数的类被称为抽象类，因为其中有一些方法是尚未被实现的，所以不能被实例化，而是只是作为一种程序框架中的抽象的概念而存在。

纯虚函数的写法是，不像一般的具有 virtual 的函数一样进行实现，而是写如 virtual void speak () = 0;，这样就是一个纯虚函数了。

给出一个完善的使用纯虚函数写的上述 Animal 案例供参考：

class Animal
{
public:
    virtual void speak () = 0;
};
class Cat : public Animal
{
public:
    void speak ()
    {
        cout << "Cat Speak";
    }
};
class Dog : public Animal
{
};
void doSpeak (Animal &animal)
{
    animal.speak ();
}
int main ()
{
    Cat c;
    // Dog d; 不能被执行，因为 Dog 没有实现 speak 方法，所以为抽象类，不能被实例化
    doSpeak (c);
    system ("pause");
}

总结

这一节主要讲解了 C++ 中的一些基础，以及类、继承、多态以及虚函数等，这些内容是 C++ 中最为基础的部分，也是 C++ 中最为核心的部分，希望读者能够理解并掌握。

周记 Week1

Mon, 08 Jul 2024 00:00:00 GMT

前言

之所以要写周记，大概是记录一下过去的这一个星期内我都做了什么，这是一种很好的总结，你可以较为直观的对我的成果进行回顾。

粗略来算的话，这应该是我建立这个博客的第三个星期，也会是我坚持写周记的第一个星期，简单记录一下生活吧，这样在将来回忆的时候也能有所凭证。

虽然说名字叫做周记，但是事实上有的内容可能并不是上个星期发生的事情，随心所欲地写，有感而发地说，大抵是这样的主旨。

总的来说，在建立这个博客之前，我也有维护过另一个博客，当时还傻乎乎的租了一个服务器，搭建了一个 Wordpress。但是最后发现，Wordpress一是性能不行，二是其使用的富文本编辑，对于经常使用 Markdown 的我来说，并不是十分的习惯。最后本来从勤快地更新技术类博客，到写周记，然后干脆把周记的名字直接改成月记，最后连月记都懒得写。说起来大概也是当时对于新知识的追求懈怠了的原因吧，希望这次可以打起精神，避免重蹈覆辙。

回顾大学的两年时间，可以说这一周也是经历了令我印象深刻的事件了。

日常生活

首先简单回顾一下日常生活，最近和女朋友在一起的时光还是十分的快乐。

Lolita

女朋友最近入坑 Lolita 了，说起来我之前早期的服装里面也有一件是 Lolita，但是当时因为没有裙撑而惨淡收场，或许改天可以再尝试一下。

巴奴火锅

最近两个人尝试了巴奴火锅，之前一直以来我们两个人吃饭都是以吃海底捞为主，现在甚至已经 20000 海底捞积分了，主要是因为海底捞可以说是最实惠的火锅之一了。我们两个人吃海底捞，大多数时候是不点肉的，一般是吃血旺以及各种杂七杂八的食物，涮一个四分之一的辣锅，每次基本上原价不超过一百五，还有学生优惠/黑海送菜，基本一百元解决。价格在这之下的火锅，几乎没有，更何况海底捞的味道也很不错，还有一流的服务。

上次吃巴奴火锅是和轻音音乐社（相关内容可以改天写一篇回忆录）的同学，cn 为雨宫铃子，一起吃。当时貌似已经是大一上了，四处寻找海底捞无果（如今发现海底捞在赛格顶层）之后吃的这个，花了很多钱但是两个人都没吃饱，而且服务员一直在边上盯着吃饭，所以印象不是很好，甚至可以说有了心理阴影。

这次吃巴奴的原因是因为父亲请客，总的来说可以说是因为不差钱，之前一直和女朋友笑谈巴奴火锅的传说，正好钱多，故打算带女朋友吃一顿。

吃完之后，不得不说，收回之前的成见，巴奴万岁。简单评价一下，基本上是海底捞里面有的菜品巴奴基本也都有，虽然说他们招牌的毛肚，涮起来不是很容易，不像海底捞一样，涮到脆的容错空间大一些。但是不得不说，他们调的这个蒜香的毛肚蘸料确实一绝，很好吃。女朋友很喜欢喝巴奴的菌汤，我这种平时不喝汤的也喝了不少，确实浓郁好喝。然后就是点了牛肉很不错，绣球菌很入味口感很好，羊肉感觉稀碎，入锅就散了，到处捞肉沫，血旺则也很好吃。

大概以上这些，感觉还是很不错的。

学业

接下来来回忆一些令人兴奋的学业相关内容。

考试

对于考试，我只能说我这个人并不是很擅长应试考试吧，也可能是因为科研之类的乱七八糟的内容，反正最后感觉烂完了。还好总体来说对于排名貌似影响不大，有一些科目还可以，但也就差不多得了。

ECCV 中稿

好耶！终于讲到最喜欢的一集了。总的来说，用一句简短的话来概括，就是 ECCV 中稿了。

这是一个让我既兴奋又释然的消息，早在本学年的开始大约是十月份的时候，我便已经提前进组参与科研，当时老师给的是一个半监督医学影像的论文，让我以及两个大三学长看一看，之后进行汇报。简单地跑了一下程序，并且做了一些实验之后，在组会中idea以一种极为巧合的方式突然冒出来，好在实现起来并不困难，于是写了写程序，然后发现性能 SOTA 了。

可以说这是一个戏剧性的结果，我一个没有任何科研经验的人，之前只是看过若干的论文，写过若干的程序，结果一瞬间便莫名完成了科研的第一步。也可以说这是来自于大一一年以来的积累，但是我即使再怎样自负，也会将运气放在这一产出的第一位。

当时还没有到十一月份，所以说和老师定下了 deadline，想要尝试赶一下 CVPR。CVPR 可以说是每一位计算机视觉初学者的耶路撒冷，我也可以说是拼尽全力的做了实验，写了论文，提交了补充材料，除了和老师探讨了论文写作和作图方面的内容之外，几乎是一个人完成的全部内容，走下来了一次论文投稿的完整流程。

接下来便是焦急的等待了，然后在新年之前，审稿结果出了，113，可以说是晴天霹雳。

可以说是天道好轮回了，运气式的 idea 产出，加上没有仔细打磨的论文——审稿人光是指出内容错误便占据了好几条，终究换来了报应。所以没有任何悬念的，我选择转投，备战 ECCV。

我为我在 CVPR 的失败做了很全面的总结，一方面是打磨不充分，无论是故事线的塑造，还是一些诸如表头等内容的细节，还是 pipeline 的作图，可以说都十分的草率。甚至说由于我的初稿是我自己写的，后面再和老师的协商之下更换了方法的名字，而在一些表头中，原方法的名字依然残留在上面，被审稿人指出，并表示了困惑。另一方面则是对于科研领域的一些规则的不了解，最经典的例子便是我在对比实验中对其他人的每一个方法都进行了 K 折验证。我可以问心无愧地说，进行上述的操作，完全没有打压其他人方法的意思，对于性能上的不足，我向来是采用对自己方法的调参解决的，然而由于某一篇论文使用了 K 折验证，而其他论文没有，于是我便选择了最公平最稳定的测试方法，也就是全在我的设备上跑一次 K 折。结果出乎意料，复现的性能与原论文相差甚至十个点，但我还是头铁地将结果汇报了上去，不出所料，遭到了审稿人的强烈质疑。

于是我按照领域中的常见规范打磨论文，重新跑实验，并且对方法进行了略微的调整，最后形成了新的稿件，在 CMT 上面进行了投稿。

投稿之后，这件事情便被我抛之脑后了，当时事后和老师讨论，老师跟我说，即使这篇论文无缘 ECCV，将来头一个 PR 也是比较稳的，这给我带来了极大的安慰，毕竟升学的压力始终伴随着我。

到了 ECCV 出结果的那一天，我还是熬夜了，但是老实说我并不对 ECCV 的结果抱有任何的期待，实在是 CVPR 给我带来的打击太大了，我当时心里想的是，只要有一个积极的评价，我便已经知足了，也就有了后续继续做科研的勇气。

然后就是开奖，那一瞬间，我几乎从座位上跳了起来，我反复地查看这个评分，以及评分的标准，最后才相信我看到的都是现实，443，我做梦也想不到自己可以获得这样的分数。

我急忙和老师汇报了这一喜讯，然后将审稿意见看了又看，很快便拟出一份 rebuttal 的临时稿件，当然，肯定是超页数了。

第二天我便前去找老师进行讨论，并且定下了 rebuttal 的基调。三个审稿人都比较温和友善，提出的问题也不算特别尖锐，可以说只有几个疑惑需要解答，并且认为论文的写作中有一些笔误和不清晰。于是任务便定下来了，重新作图，完善 motivation 以及 pipeline 的表达，老师请来了两位师兄师姐，与我共同完成这些内容。

可以说这个初审的分数给我带来了极大的希望，甚至说这种希望近乎已经成为了一种折磨，把我从原来对于 ECCV 已经不抱有任何幻想的状态，拉进了每天的煎熬中。

在煎熬中，时间就这样流逝，然后便到了公布结果的那一天，我本来是做好了熬夜的打算，然而在前一天的晚上，结果便提前公布了。我的双手几乎可以说是颤抖着，将链接复制下来然后输入浏览器，紧接着 ctrl f，查询我的编号。搜索框中出现 not found 的时候我的心脏几乎停跳了一下，然后检查我的编号，发现是记错了一位，最后终于找到，连忙保存 html 留作副本（万一他们反悔怎么办），然后截图，紧接着我瘫坐在椅子上的时候，一种欣喜才迟迟地涌上我的心头。

我一时间似乎有些想哭，但是哽咽就卡在嗓子中，哭不出来，一路上可以说经历了太多的坎坷，绝对不是这一篇博客，几段文字，简简单单便可以概括的。好在一切都有了结果，好在努力得到了回报。接下来我开始向各路关心我的人报喜，然后发了一条 QQ 的说说，如下：

ECCV中稿了，也算是给近一年以来的科研画了一个迟来的逗号。

一开始这篇工作是在CVPR投稿期间做出来的，idea的形成以及实验都还算顺利，但是投稿的过程却颇为坎坷，无论是论文的写作还是最后的表达都有所欠缺，最后转投ECCV。

也许是运气的眷顾，或者是努力终究会有回报，好在最后的结果还算顺利，积累了经验，提升了能力，收获了许多。

一时间有些不知道该说些什么，一路坎坷走到现在，未来还有多远呢？好在眼下还有不错的激励，能让我强打精神再出发。

刚接触科研的时候晚上常常想多，想着万一自己中了论文，如何如何，当时就想着发这样一条说说，文案也想好了，就叫“春风得意马蹄疾”。

感谢一路走来的一切，感谢老师和师兄师姐的指导，女朋友的陪伴，群u们的支持与鼓励，以及种种。现在若干时间过去了，现在想想，用一句诗来结尾的话，或许我会选择。

“轻舟已过万重山。”

是啊，轻舟已过万重山，我等这一刻究竟已经等了多久？为此熬了多少夜？现在终于可以松了一口气。仿佛一瞬间一切的烦恼，一切的忧愁，一切的烦心事，在那一刻看来都好似过眼云烟，结束吧。

其他

绿裙相关

本人在计算机保研交流群，也就是俗称的绿群中，一直以来都是一名活跃群友，并且自认为还是干过几件大事的。

首先是在今年四月份的时候，当时群众便已经聚集了 21 级的大量同学，大家都对自己的命运琢磨不透，并因此焦虑。绿群中一个常见的话题，便是俗称的 bg 定位，也就是某人对于自己的背景情况（background，即 bg）进行阐述，并且邀请群中对于保研更加了解的前辈或者同学，对于自己可能的去向给出建议。

我是一个无比喜爱信息差这个概念的人，并且热衷于将分散的信息进行整合，于是一个有趣的想法便自然而然的形成了，建立一个匿名的 bg 统计表格，每一个人都可以将自己的信息进行上传，而且这些匿名信息事实上并不会导致过多的信息泄露，因为一方面这些内容的填写是可选的，另一方面，每个人也是自愿的提供这些内容，更何况这些内容本身也会在群中被发表出来。这些信息包括了学校/排名/科研与竞赛的经历等等，并且开设了提问板块以及建议栏，可以让群友们自行对于已经公布信息的题目给出建议。

在这个之后，我又增加了序号功能，并且表格可以根据回复的人数进行排序，让靠后的人也有机会被看到，最后更是直接转战谷歌，这是因为保研中介的引入带来了大量的举报，文档经常就被封禁，于是我使用了谷歌的统计表以及表格的联动，并且选择将表格内容通过外挂网站的方式进行公布，避免了这一现象，并且便捷了提交流程。

在当时这一创造可以说是现象级的，自动化保研交流群，甚至也都在讨论这一举动，并且光速推出了他们自己对于这一表格的模仿版，但是显然无论是热度还是内容量，又或者是维护的先进性，与我推出的表格都有着明显的差距。

不过遗憾的是，这一表格的投稿人很多，但是给出建议的群友，向来只有不几个，我也因此甚至自己请教了大量的前辈们，并且尝试给出自己的意见。也正是因为这个原因，加之以时间的流逝，和真正的保研的临近，这一表格后来也就慢慢被荒废了。

接下来便是最近设计的又一创举，也是受到了广泛的传播，并且拿下了一百多个 star，也就是本人实现并维护的 cs-baoyan-ddl。

起因是因为几位活跃群友在群中的讨论，想要构建一个项目，酷似 ccfddl，可以实现对于夏令营截止日期的统计，而我看到了这一想法之后，由于之前对于网页制作稍有经验，并且更关键的是精通面向 GPT 的编程，因此只是短短的两个小时时间，这个网页便被搭建起来了，同时被我挂到了 Github Pages 上。

大家的反响依然十分激烈，给出了许多的赞美，但是我深知这一网站并非完美的，无论是对于数据的管理，我需要人工大量地从已经形成的 CSSummerCamp 的 Markdown 文档中进行人为的提取，这是大量的工作量，同时在后续进行仓库的维护，也并不是很便捷，最后使用原生的 web 三大件大建出来的网页维护起来也是十分麻烦，并且有很多功能难以实现，于是我便踏上了漫长的重构旅程。

首先我又一次学习了 Github Actions，通过建立了 BoardCaster 仓库模拟了一个后端数据库的存在，并且可以使用 Action 让不同的仓库都订阅这一仓库，从中获取需要的数据。同时，我设计了一套可以根据 Issue 直接更新数据库的流程，这使得数据库的更新变得更加方便。

然后，我紧接着学习了 Vue3，并且和 GPT 一起完成了对于整个网站的重构，并且添加了更多的功能。再一次开始宣传的时候，可以说这一网站的功能已经完美地达到了 2.0 的版本，并且支持了更多的数据库的引入。

汐学组

与此同时，在这里同样被我维护的开源项目还有另一个项目，便是汐学组。关于汐学组的创立，这是一段曲折的经历。

本人可以说是一个十分热衷于开源的人，我从大一上开始便已经开始制作各种各样的教程，其中比较知名的是一个关于 C++程序设计的复习指南，根据学弟透露的情报，在最新的期末复习课的资料中，我当初所写的资料已经赫然位列其中。能够成为所谓官方的复习资料，本人还是十分荣幸的。

能够产出复习资料，除了出于对于开元社区做贡献的热爱之外，也是因为我在 RoboMaster 时期便已经收到了良好的编程训练，这其中很重要的一项就是 Markdown 文档的编写，在此之后我又自学了 $\LaTeX$，使得我的相关功底更上一层楼。顺带一提的是，关于 RoboMaster，我也计划写一期回忆录，暂且列在待办事项中，毕竟博客不只是用来分享技术的，也是我随便写写东西的场所，而其中很重要的一点便是对于过去的回忆记载。

在此之后我也进行了诸多的创作，产出了大量的复习资料，或者说与其说是复习资料，不如说是某种复习大纲，或者是 cheatsheet 格式的内容，可以帮助使用者在考前快速的回顾知识点，但是或许并不适用于那些对于知识压根不了解的同学。同时我还热衷于进行PPT转述，将PPT中的全部重点以及内容公式使用 Markdown 进行转述，一方面这种资料的整理可以帮助我更快的巩固知识点，同时转述后的PPT也很便于立刻形成成体系的复习大纲。

老实说我一直对开源社区是抱有希望的，我一直认为我将 PPT 转述的内容发布之后，便会有其他同学，紧跟我的脚步，将内容进行二次压缩，但是很遗憾的是，这种事情往往不会发生。

整个大一的学年中，从我之外分享复习资料的同学屈指可数，而且部分的资料，当然也可能是我记忆错误，事实上来自于大二，通过类似于手写扫描或者电子笔记的方式进行分享。一方面，这种载体的资料分享并不便于他人在此基础上进行二次加工，而与此同时，在使用了 Markdown 以及 LaTeX 等工具之后，我对于文档的格式化表达形成了一种近乎洁癖的偏执，而很明显的一点是，我所在专业同年级的绝大多数同学，可以说完全没有接受过相关的训练。甚至我敢打保票，直到大二结束的现在，仍然有超过50%的同学不知道如何书写 Markdown。

于是显然，开源之路是孤独的。

到了大二的时候，我创作的资料已经足够使用一个知识库进行维护了，但是当时我对于网站的创立等内容尚且不太熟悉，于是使用了我常用的笔记软件，Obsidian，将我的资料进行了开源，但是貌似直到目前为止，相关仓库在我的宣传后，也没有一个 PR，而显然，大多数同学更不会使用 Git。

另一件怪事是，在大二的时候，我们忽然变成立了一个所谓的AI学组。老实说，在西交中确实存在着无数的学组，诸如钱学组/仲英学组/彭康学组等，虽然他们的一些资料为了确保没有知识点的遗漏，而导致过于的冗长，但是总的来说，这些资料具有极高的价值，同时他们还整理了往届的考试原题，这几乎是我期末复习周的救命稻草。但是令我困惑的是，AI学组究竟因何诞生。正如我之前所提到的，除了我之外，我并未在年级中听说过任何一位其他的资料分享的积极活跃者，难道说终于有同学开窍了？打算加入开源的事业？

刚开始的时候，我对于学组的建立是十分激动的，无论是对于资料的分享，共同维护一个硕大的 Github 资料库，还是说在学习之余，进行一些科研相关的讨论会，交流一下彼此的见解，这对于年级的水平提升和共同进步的促进都是十分明显的。然而在我加入其中，兴致勃勃地分享了自己创建的仓库，并且积极更新资料同时，其他同学的资料则难以见到其踪影，直到后来临近期末考试，在考试开始的前几天，终于出现了电子笔记形式的资料，至此，我对于学组已经多半失望了，或许还是自己来比较合理，正好我有的是精力。建立优质的资料，为大家树立标准，或许可以激励学组和其他的开源行为变得更好，于是在大二下的时候，我自己的开源网站以及组织，汐学组成立了。

大多数的学组均是如此，挂靠在学校的诸如书院的团委名下，并且做出的贡献都会根据贡献量给予工时等奖励。然而不同于这些内容，汐学组是完全为爱发电的形式，没有工时奖励，没有赞助窗口（或许将来我会建立一个，用于购买咖啡或者维护服务器），只有我分享的资料以及网站，并且目前我的 Github 账号正以每天十条以上的 commit 的频率活跃着。

现如今，汐学组名下主要维护着两个网站，分别是汐学组的主页，以及西安交大生存指南。其中主页的内容包括了学组的介绍，以及一些复习资料的分享，通过 Github 的 raw，可以提供直接使用链接进行点击下载的功能。与此同时，西安交大生存指南则是我受到了上海交大生存指南的启发，从而自己建立的一个生存指南，涵盖了包括在大学中看待事物的方法，入学时候的须知事项，一些基础的学习技巧，一些恰当的学习路线，以及其他的可能在正常途径中无法获得的信息。

在将来的一个打算是，或许可以推出一种周刊或者月刊形式的学习资源分享，当然这个分享并非课内的，而分享的内容也并非我自己制作的，大概的名字叫做，学点没用的。分享一些可能在正常的专业学习路径中无法遇到的知识，并且学习它们，拓宽自己的知识面，并且维持自己对于新知识的热情。

总的来说，作为一个开源社区的贡献者，我自认为在本年级中，暂时还没有同学可以超过我，包括无论从呈现的形式上，还是从工作量上来说，均是如此。

目前暂时来看，关于开源工作的推进，一方面是寻找一些其他专业的成绩优异的同学，为西安交大生存指南提供优质稿件；另一方面则是仍然需要培养本专业 24 级同学的参与开源的能力与热情，同时积极把握 23 级同学。但是至于 22 级，好吧，暂时来看我是随缘了。

总结

说来说去，作为我的第一篇周记来说，写了太多的东西，已经有点类似于我的前两年的回忆录的感觉了，虽然前两年经历的事情远不止如此，之后的每一次周记，我预计会包含大概四到五条，但是内容量肯定不如本次一样丰富，毕竟这次还融合了许多之前发生的事情，而之后的话，想要多写内容，可能需要托我的联想能力多多发挥功效了。

大概就是这样子，接下来应该继续投身于科研，以及更多的开源事业中去了。

简单立下一些 flag，下周首先要将西安交大生存指南新增大约四到五篇文章，然后开始学习计算机图形学，同时需要提醒的是，要将 ECCV 的稿件顺利投稿，这是很重要的。

Obsidian 快速上手指南

Sat, 06 Jul 2024 00:00:00 GMT

前言

根据惯例写一下前言，关于这篇博客为什么要写，以及其中的内容。

笔者曾经不止一次在各种场合推荐过记笔记的好处，以及笔者所使用的 Obsidian 这一笔记软件。关于记笔记，每个人可能存在不同的理由，在这里笔者给出的理由是，笔记的记录是一种对于学习的正反馈，是对于自身学习内容的一种定量描述，更多的论述见 SurviveXJTU 的对应章节。

目前市面上存在着若干的笔记软件，国内的诸如语雀/flowus 等，而国外的则诸如 Notion/Obsidian 等。在这里有必要指出，尽管国内的笔记软件的功能均在提升，但是其功能性均不如 Notion，而 Notion 则是基于网络的内容，你记载的笔记均不是本地内容，同时伴随着较高的学习成本。

相较起来，Obsidian 则是一款本地笔记软件，你的全部内容可以均保存在本地，也可以通过 Github 等方式进行备份与同步。Obsidian 使用 Markdown 语言进行笔记的撰写，这使得其具有较低的上手难度，而同时其双向链接功能以及诸多插件则可以覆盖基本全部的日常笔记记录的需求，最后其仓库的概念则使得笔记之间被优雅地组织在一起。

安装与下载

Obsidian 的安装与下载十分简单，你可以在 Obsidian 的官网进行下载，之后按照提示进行安装即可。

仓库

一如 VSCode 中的工作区，在 Obsidian 中，一系列的笔记内容（一个知识库）被组织在一个名为仓库的单位中。仓库实际上就是一个文件夹，其根目录下包括一个 .obsidian 文件夹，其中含有一些 Obsidian 自身的配置以及日志文件，而其他的文件夹以及内容则全部都是笔记的内容。

仓库的特点在于，在仓库中的全部文件，可以由 Obsidian 自动进行索引，这使得你可以通过文件名进行搜索，而无需担心文件路径的问题，而当文件的名称改变之后，这些链接也会自动更新。

双向链接

Obsidian 不同于专业的 Markdown 编辑器，如 Typora 等软件的最大特点便是其使用的双向链接功能。

理解双向链接是一个很简单的过程，其可以在不同的 Markdown 文件之间建立联系。这一过程像是网页中的链接功能，在每一个文档的右上角打开 更多选项->打开链接视图，可以找到局部的关系图，而在界面左侧的 查看关系图谱 中则可以找到全局的关系图谱。

双向链接的双向主要体现在，不仅可以统计链接的出链，也可以统计其反向链接数量，这使得可以获得这篇文档被引用的来源。

通过双向链接可以很方便的直接获得思维视图，而这对于整理整体的知识谱系，使得知识融会贯通有着很重要的意义。

在笔记的整理过程中，这种双向链接的功能可以使得回顾之前的知识或者掌握拓展的知识更加轻松，这使得比如：在一篇复习资料中，对于某一拓展知识，我们可以将其通过双向链接进行链接，而不是直接插入在复习资料之中，使得资料简洁的同时兼顾拓展性；同时假如在一篇公式与符号众多的资料中，某一处提及了较靠前的内容，通过双向链接也可以准确的回到那一处内容进行回顾，而不是如同 PDF 文档亦或者是纸质笔记一样需要花费大量的时间对知识点进行寻找。

通过点击链接进行跳转之后，对于使用鼠标且具备侧键的用户来说，侧键可以直接进行“返回”操作，而对于其他的用户来说，可以点击文档左上角的的左向箭头，值得一提的是，这种返回操作完全不是 ctrl + z 进行的撤销操作，请勿混淆。假如说因为前进与返回不方便而困扰，也可以在左下角的齿轮形状图标的设置中点击快捷键-返回与快捷键-前进，进行修改。

使用双向链接这个过程十分简单，使用 [[文件名|显示名称]] 或者 [[文件名]] 就可以完成双向链接，其中后者是简化语法，链接的目标与显示的文本会相同（无后缀名）。值得一提的是，这种方式的链接很像 Markdown 基本的语法，即 Markdown 中的超链接语法，因此不难记忆。而二者的不同之处在于，超链接需要给出链接的完整的相对路径甚至绝对路径，而 Obsidian 则无需考虑完整的文件路径，仅需要输入文件名，而 Obsidian 的工作区则会维护剩余的部分。

Obsidian 的双向链接同样支持索引到标题甚至段落，其使用的语法分别是 [[文件名#标题名]] 以及 [[文件名^段落标记]]，其中段落标记可以在输入 ^ 之后选择了期望的段落后自主生成，其一般为形如 ^f6c831 的编码，或者可以使用 ^标记 来创建标记。标记的长度不限，但是只能由数字与字母组成，在编辑模式下可视，而在阅读模式下不可视。

插件安装

Obsidian 的插件安装分为使用插件市场进行安装或者手动安装，一般来说绝大多数的插件，读者仅需要使用插件市场便可以完成安装的事项。

在选项中找到第三方插件，并且关闭安全模式之后，即可访问插件市场。值得一提的是，顺利的插件市场访问需要在可以顺利访问 Github 的网络环境下。

在插件市场中找到自己心仪的插件，并且点击安装即可，十分的简单。

在这里笔者推荐一款笔者最常用的插件，即 Easy Typing，这个插件可以帮助你进行快速的格式化文档，使得你的文档规范统一。Easy Typing 可以十分便捷的创建属于自己知识库的文本规范，同时可以对一些符号的输出进行自动的补全，比如：

输入两个 【【 自动变成 [[]]。
输入 （ 自动变成 （）。
输入三个反引号自动补全为代码块。

总结

笔者分享了一些关于 Obsidian 的基础使用，包括仓库、双向链接以及插件安装等内容，希望对读者有所帮助。

Git 的常见操作

Wed, 03 Jul 2024 00:00:00 GMT

前言

本篇内容写作的初衷，是由于，笔者在生活中的见闻。不少的 Git 的初学者，毫无疑问，是了解关于 Git 的大多数的基本操作的，但是对于其背后的流程却知之甚少。因此，在实际的操作中的时候，假如说进行正常的 git clone 之后的add, commit, push 操作，那么多半问题不大，但是假如说遇到了更加复杂的需求，则难免束手无策。

这便是笔者写作本内容的初衷，即尝试通过更加复杂的 Git 任务，尝试帮助读者了解一个更加完整的 Git 工作流，并丝滑地处理日常的一些基础内容之外的常见需求。

初始化 Github SSH

初始化 Github SSH 是每一个 Git 用户与 Github 进行交互的第一步，但是在这其中的不少流程往往引人迷惑，使得在后续的日常使用中，常常困惑于自己的配置是否合理。

由于 Github 的更新，Github 的上传不再支持使用账号密码的身份验证，而是转为使用个人访问令牌或者 SSH 的方式，而其中毫无疑问，使用 SSH 是最为优雅的解决方案。SSH 生效的原理是，在本地生成的公钥私钥对，其中的公钥被上传至 Github，而在 SSH 之后，本地与 Github 建立安全连接，从而进行相关的操作。

在这里首先给出初始化 Github SSH 的详细步骤，之后再进行解释，以解决部分初学者的误区。

详细步骤

首先，使用 SSH 创建密钥对：

ssh-keygen -t ed25519 -C "your_email@example.com"
# 或者 ssh-keygen -t rsa -b 4096 -C "your_email@example.com"

其中 ed25519 以及 rsa 均是密钥生成的算法，其中 ed25519 是更新的算法，假如说本地不支持，则可以使用 rsa，本身的安全性均很高。输入之后默认回车即可，密钥会被生成至 ~/.ssh/ 中。使用 cat 指令可以进行查看：

cat ~/.ssh/id_ed25519.pub
# 或者 cat ~/.ssh/id_rsa.pub

将生成的公钥复制至 Github 中，在 Github 的 Settings 中的 SSH and GPG keys 中，点击 Add SSH key 进行添加即可。

理解误区

在这一过程中，我们注意到，包括说互联网中绝大多数的常见教程，均会使用 -C "your_email@example.com" 这一行指令，而与此同时，git config 以及 Github 均存在邮箱地址这一配置内容，但是实际上这三者之间没有一点的关系。生成密钥使用的邮箱为注释性质的，本质上可以不添加；git config 的邮箱为记录性质，每一条 commit 都需要记录用户以及邮箱；而 GitHub 的邮箱则是账号性质，是掌管 Github 权限的内容。

因此也就不难解释一些奇妙的问题了，诸如自己的本地的 push 在 Github 中显示的来源与自己的 Github 账号不一致。这完全是因为在 git config 中配置的邮箱与 Github 中的邮箱不一致导致的，而信息与 git config 中的内容保持一致，假如说想要纠正，重新设置 git config 即可。

关联新建仓库

关联新建的仓库同样是在 Git 操作中很常见的一种，也就是应该如何让本地的 Git 与 Github 中的仓库之间建立远程链接，这其中最方便的一种便是使用 git clone 指令。

git clone git@github.com:username/repository.git

假如说已经在本地的仓库中创建了一些内容，则可以在 git clone 之后将已经创建的内容统一复制到克隆出来的文件夹中即可。

在这里需要指出的一种常见错误是，在 Github 中创建仓库时勾选了创建 README.md 或者 LICENSE 文件，而后使用大多数教程中推荐的 git init, git add ., git commit -m "initial", git remote add origin git@github.com:username/repository.git, git push -u origin main。这一流程常常导致报错，这是因为在 Github 中存在这些默认创建的文件，而本地的仓库中并没有这些文件，这会导致在 git push 的时候出现错误，而如果已经进行过 commit，也会因为 commit 的历史不一致而在 pull 以同步这些文件的时候报错。

因此，正确的流程是，在 Github 中创建仓库时，不勾选这些默认创建的文件，而在本地创建这些文件，再进行 git push 即可。或者使用上述的 git clone 流程。

假如说非要在这种情况下使用 git init 的流程，则可以使用以下的脚本：

git init
git add .
git commit -m "initial"
git branch # 查看当前分支名称
git branch -m main # 当前分支重命名为 main
git remote add origin git@github.com:username/repository.git
git pull origin main --allow-unrelated-histories
git push -u origin main

其中的精髓在于使用 --allow-unrelated-histories，这使得在 pull 的时候，允许两个不同的仓库进行合并，从而避免报错。

废弃当前 Github 仓库分支并更新 main 分支

对于部分的仓库的重构需求，例如将本仓库不再使用 Hugo，而是使用 VitePress 进行搭建，那么需要将本仓库的 main 分支进行完全的重建，同时出于保险起见，还需要将之前的分支进行备份，也就是将其置入一个废弃分支。

首先先备份当前的分支：

git checkout main
git checkout -b deprecated-main
git push origin deprecated-main

之后重建当前的 main 分支：

git branch -D main
git checkout --orphan main
git rm -rf .
# 将新的文件添加到当前目录
git add .
git commit -m "Rebuild main branch"

最后在 push 的时候使用 -f，也就是 force，进行强制推送：

git push -f origin main

假如说本仓库存在一个 gh-pages 分支，有可能会需要删除这个分支，使用以下指令：

git push origin --delete gh-pages

总结

以上内容总结了部分的笔者在日常使用中经常会用到的 Git 相关的使用技巧，这些内容是维护一个仓库的过程中十分常见的。同时，同样需要注意的有诸如在修改仓库内容之前先进行 git pull 此类日常习惯，这样才可以保证内容的一致性。

Github Actions and Pages 教程

Tue, 02 Jul 2024 00:00:00 GMT

前言

本教程是关于 Actions 以及 Pages 的一些分享，最近一段时间在 Github 上面发烧了一阵子，狠狠的制作了一些开源的项目，自然也存在一些摸索性质的内容，而摸索出了答案，也就是时候出一篇教程来写一写，正好，本博客风格赏心悦目，值得一试。

关于 Github Pages

首先需要提及的是 Github Pages，简单来说，这是一种 Github 提供的静态网站托管服务，至于什么是静态网站，一种简易的理解是，至少上面不会有一个数据库，网站也不存在任何对数据的读写操作，一切的风格化变化只来自于网站提前搭建好的框架。

基于这种特性，不难理解的是，Github Pages 尤其擅长处理一些类似于博客、文档、教程一类的网站，甚至说我们的 CSBAOYANDDL 也通过一种取巧的方式，可以通过 Github Actions 维护一个类似于数据库的内容。

在提供静态网页这件事情上，Github 可以说是十分慷慨的，每一个用户可以创建近乎无限的仓库，而每一个仓库都可以对应一个 Github Pages————只要你知道如何设置（而这一点我们会在后面提及）。

关于 Github Actions

Github Actions 是一个持续集成和持续部署（CI/CD）平台，它允许用户在 Github 上创建自动化流程，用于构建、测试和部署项目，其支持使用 YAML 文件定义工作流程，并且可以与 Github 上的其他服务进行交互，换句话来说，Github Actions 支持我们在 Github 这个理论来说静态的平台上面运行一个脚本。

通过上述的内容，细心的读者应当不难发现，Pages 提供静态服务，而 Actions 则可以运行脚本，二者的互补之下，很多内容都成为了可能，不过本篇中不得不遗憾地告诉读者，Actions 在其中并不发挥着过多的作用，大多数的内容仅是基于现如今成熟的网页模板以及 Github Pages 的静态网站部署，便已经结束了。

部署你的第一个网站

回顾

在很多的教程中，往往都会教学如何建立一个自己的博客或者主页，通过 Github Pages 的方式。然而这些方法往往问题很大，即会让读者产生一种错觉，一个账户只能创建一个静态网站。

让我们回顾一下这些教程说的内容，首先，在自己的账户中创建一个仓库，这个仓库的名字需要是 username.github.io，对于笔者来说，也就是创建一个名为 Axi404.github.io 的仓库。

然后在其中使用某些模板或者其他的内容进行进一步操作。这看上去确实正规，但是不免让人产生了怀疑，那么我的仓库名是不是只能叫做 username.github.io 呢？

事实上在创造一个仓库的时候，你的仓库中存在一个选项，即 Github Pages，在进行了一些操作之后，便可以让你创建一个网站，而这个网站一般来说其域名为 username.github.io/reponame。具体进行的操作先按下不表，但这里也就不难发现了，实际上创建名为 username.github.io 看上去确实特殊，但是并不意味着你只能创建一个仓库：事实上 Github Pages 对于这个仓库名称进行了特殊处理，使用该名称创建的仓库，其域名直接为 username.github.io，但除此以外，并不限制你创建其他的仓库。

让我们来简单的了解一下创建一个网站的流程。

按照常规的流程来说，我们都知道，Web 网站是由 Web 三大件共同创建的，其中 html 负责创建网页的框架，css 负责创建网页的样式，而 js 负责创建网页的交互。而在大多数的网站中，index.html 绝对是重中之重。在 Github Pages，其在部署阶段，网站会自动寻找在某一目录下的 index.html 文件，并且将其作为网站的主页，同时将全部的内容部署到静态网页中。

因此这一流程也也就不难想象了，创建一个 index.html，在其中写入一些内容，然后将这个文件部署到 Github Pages 中，便可以得到一个网站，简单地好似将大象放进冰箱里。

实例

在这里给出一个小小的实例，读者可以跟着进行一下尝试，在这里我们假设读者已经在本地完成了 Git 以及 Github 相关的一切配置，并且拥有了一个仓库，例如名为 MyExample。以下均会采用我的用户名进行操作，这是因为每一次使用 username 的时候总会存在读者不解并不将其替换，使用本人的用户名应当会更加明显一些，表明替换的必要性。读者在使用的时候将我的用户名替换为自己的即可。

git clone git@github.com:Axi404/MyExample.git
cd MyExample
vim index.html

在 index.html 中写入以下内容：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>My First Website</title>
</head>
<body>
    <h1>Welcome to My First Website</h1>
    <p>This is a simple HTML page hosted on GitHub Pages.</p>
</body>
</html>

更进一步来说，你可能愿意为其添加一些 CSS 样式以及 JS 脚本，这也同样不难：

首先创建一个 CSS 文件名为 styles.css，在其中写入一些代码。

body {
    font-family: Arial, sans-serif;
    margin: 0;
    padding: 0;
    background-color: #f4f4f4;
}

h1 {
    color: #333;
    text-align: center;
    margin-top: 50px;
}

p {
    color: #666;
    text-align: center;
    margin-top: 20px;
}

然后创建一个JS文件名为 script.js，并且在其中输入一些代码：

document.addEventListener('DOMContentLoaded', function() {
    alert('Welcome to My First Website!');
});

最后再对 index.html 进行一些修改以导入这些内容，包括在 head 中加入 <link rel="stylesheet" href="styles.css"> 以及在 body 的末尾加入 <script src="script.js"></script>，这样便大功告成了。

假如你使用的是 VS Code 之类的编辑器，使用 Live Server 可以对这个页面进行实时阅览，十分好用，或者正常的 Linux 命令行，使用 xdg-open 打开文件进行预览也是可以的（指在具有桌面 GUI 以及默认浏览器的系统中）。

接下来可以将这些内容上传到 Github 了：

git add . 
git commit -m "initial commit"
git push

之后前往 Github 上面，依次添加 Setting -> Pages -> None -> main -> save，完成设置，流程可以如下所示：

不难发现后方的名为 /(root) 的选项，即你的 index.html 所在的目录，我们这里使用默认的根目录即可，后续我们会知道，使用自定义的 Github Actions 也可以做到相同的效果。

在点击 save 之后可以点击上方的 Actions 看到一个 deployment 的 action 正在 queue 或者正在 Pending，等待部署结束即可。

此时再次回到 Pages 的界面，可以看到页面已经部署，并且给出了 url 链接。

之后再次进行的部署流程会比这个简单很多，只需要在修改了内容之后重新 commit 并且 push 即可，剩下的内容 Github Actions 会帮助你完成，这是得力于这个 Action 对你的 push 操作的检测（被触发）。

部署诸如 Hugo 以及 mkdocs 等内容与直接的 html 文件稍有不同，在后续的拓展内容中会陆续更新这两部分的介绍。

完成你的第一个 Github Actions

你已经完成了一个正常的网页的部署了，一般来说，假如说你是正常的手写的 index.html 类型的静态网页，此时任务便已经结束了，不过很不幸，你可能还有更多的需求，所以需要一个自己的 Github Actions 来进行更多的个性化操作。

笔者将给出两个示例来进行示范，其中之一是部署 vue 项目，众所周知 vue 项目需要顺利编译才可以成为正常的静态网页，而优雅的方式之中并不包括本地编译之后手动推送。如何在 Github 中使用 Github Actions 来自动化完成这一流程便成为了刚需。同时，笔者也将给出另一个示例，也就是 CSDDL 的另一关键组成：BoardCaster。BoardCaster 是保管在另一仓库中的 JSON 格式的保研信息数据库，如何进行定时的订阅以及对于当前仓库的定时更新？这也同样可以使用 Github Actions 做到。

部署 vue 项目

首先先通过正常的方式安装 vue3，并且已经完成了一个项目的新建。例如：

npm install -g @vue/cli
vue create cs-baoyan-ddl
cd cs-baoyan-ddl
npm install
npm install gh-pages --save-dev

并且进行了一些内容的创建。

之后需要进行若干的设置操作，虽然这些并不包括在 Github Actions 之中，但是为了后续的部署，这些是必要内容，假如仅讲解 Github Actions 未免写得过于的空洞。

首先修改 vue.config.js：

module.exports = {
  publicPath: process.env.NODE_ENV === 'production'
    ? '/cs-baoyan-ddl/' // your repo's name
    : '/'
};

此处值得一提的是，在此之前包括 fetch 的内容，如 fetch('/config/schools.json')，需要修改为类似于 fetch('/cs-baoyan-ddl/config/schools.json') 的格式。

之后修改 package.json，加入 deploy部分：

"scripts": {
  "build": "vue-cli-service build",
  "serve": "vue-cli-service serve",
  "deploy": "gh-pages -d dist"
}

gh-pages 是一个十分强大的工具，可以在 build 的时候为你 build 原内容到分支 gh-pages 中。

之后在 .github/workflows/deploy.yml 中添加以下内容：

name: Deploy to GitHub Pages

on:
  push:
    branches:
      - main
  workflow_dispatch:

jobs:
  build-deploy:
    runs-on: ubuntu-latest

    steps:
      - name: Checkout repository
        uses: actions/checkout@v2

      - name: Set up Node.js
        uses: actions/setup-node@v2
        with:
          node-version: '16'

      - name: Install dependencies
        run: npm install

      - name: Build project
        run: npm run build

      - name: Configure Git
        run: |
          git config --global user.name 'github-actions'
          git config --global user.email 'github-actions@github.com'

      - name: Deploy to GitHub Pages
        run: |
          git remote set-url origin https://x-access-token:${{ secrets.GITHUB_TOKEN }}@github.com/${{ github.repository }}.git
          npm run deploy
        env:
          GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}

遂讲解一下这个 Github Actions 的内容。

一般来说，Github Actions 一共包括三个部分，分别是 name, on 以及 jobs。

name：name 的含义应该不难理解，也就是你的 Actions 的名字，你在 Github 之中全流程都是可视化的，name 作为选择执行不同 Actions 的依据十分的直观。
on：on 的含义是触发条件，也就是当什么事件发生时，你的 Actions 才会被触发。
jobs：jobs 的含义是任务，也就是你的 Actions 具体要执行什么操作。
- build-deploy：本代码中的 build-deploy 是这个 Actions 之中唯一的任务，这串字符也就是这个任务的名称。
- runs-on: ubuntu-latest：runs-on 的含义是运行环境，也就是你的 Actions 会在什么环境下运行。一般来说使用最新的 ubuntu 环境即可，即 ubuntu-latest。
- steps：steps 的含义是步骤，也就是你的 Actions 具体要执行什么操作。
  - actions/checkout@v2：actions/checkout@v2 是一个 Github 官方提供的 Actions，其作用是检出仓库。
  - actions/setup-node@v2：actions/setup-node@v2 是一个 Github 官方提供的 Actions，其作用是安装 Node.js。
  - run: npm install：这个步骤会执行 npm install 命令，以安装项目所需的所有依赖包。这个步骤通常是必要的，因为在构建和部署之前，所有的依赖包都需要被安装到项目中，这其中包括了关键内容，即 vue 以及 gh-pages。
  - run: npm run build：这个步骤会执行 npm run build 命令，以构建项目。这通常会生成一个用于生产环境的优化后的静态文件集，例如 HTML、CSS 和 JavaScript 文件。
  - run: git config --global user.name 'github-actions' 和 run: git config --global user.email 'github-actions@github.com'：这两个步骤用于配置 Git 用户名和电子邮件地址，以便后续的 Git 操作可以顺利进行。这里设置的用户名和电子邮件是为了让 GitHub Actions 可以以一个虚拟用户的身份进行提交操作。换句话说，这里的 name 以及 email 可以随意设置，只是为了一个名称而已，具体的权限由 secrets.GITHUB_TOKEN 提供。
  - run: git remote set-url origin https://x-access-token:${{ secrets.GITHUB_TOKEN }}@github.com/${{ github.repository }}.git：这一行命令会更新 Git 远程仓库的 URL，以便使用 GitHub 提供的访问令牌进行身份验证。${{ secrets.GITHUB_TOKEN }} 是一个 GitHub 提供的自动生成的访问令牌，它存储在 GitHub Secrets 中，用于确保安全的身份验证。只有使用了 secrets.GITHUB_TOKEN，指令才有与 Github 仓库交互的权限。
  - run: npm run deploy：这个步骤会执行 npm run deploy 命令，以将构建后的文件部署到 GitHub Pages 上。由于安装了 gh-pages，在部署的过程中会自动在 Git 上进行操作，将静态文件推送到 gh-pages 分支，从而触发 GitHub Pages 的部署。

以上便不难理解 Github Actions 的基本工作原理了，绝大多数的静态网站生成方案都会给出自己的 Github Actions 配置文件，而你只需要在理解了文件的组成之后在他们的基础上进行略微的修改即可。

定时更新仓库文件

CSDDL 的另一关键组成便是其数据库，也就是 BoardCaster。众所周知，静态网站并不存在后端，也就不存在可以持续更新维护与访问的后端数据库，但是使用 JSON 文件以及一种类似于订阅效果的操作，可以完成一个丐版的数据库，这并不困难。

梳理一下思路，我们的需求包括，git clone 另一仓库的内容，将另一仓库的内容截取需要的部分复制到本仓库对应位置，正常的 add, commit, push 流程。最后，这个脚本需要定期执行。

不难给出 Github Actions 脚本：

name: Update JSON from BoardCaster

on:
  schedule:
    - cron: '*/15 * * * *'  # 每15分钟运行一次
  workflow_dispatch:  # 手动触发

jobs:
  update-readme:
    runs-on: ubuntu-latest

    steps:
    - name: Checkout Listener repository
      uses: actions/checkout@v2

    - name: Clone BoardCaster repository
      run: git clone https://github.com/CS-BAOYAN/BoardCaster.git

    - name: Copy and rename data.json to public/config/schools.json
      run: |
        cp BoardCaster/data.json public/config/schools.json

    - name: Commit and push changes if there are any
      run: |
        git config --global user.name 'github-actions'
        git config --global user.email 'github-actions@github.com'
        git add public/config/schools.json
        if git diff-index --quiet HEAD; then
          echo "No changes to commit"
        else
          git commit -m "Update public/config/schools.json from BoardCaster"
          git push
        fi
      env:
        GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}

大多数内容应该不难理解，大量的篇幅是常规的 Git 操作，在 GITHUB_TOKEN 的环境下执行，其中唯一需要指出的细节是先比较 HEAD 之后再决定是否 commit，这是因为若无修改而 commit 会导致 Git 报错，虽然实际上无伤大雅，但是依然不够优雅。

同样需要指出的是定时触发的语法，schedule 中的 cron 语法是 Github Actions 提供的定时触发语法，*/15 * * * * 表示每 15 分钟触发一次。

* * * * *
| | | | |
| | | | +---- 星期几 (0 - 7) (星期天为0或7)
| | | +------ 月份 (1 - 12)
| | +-------- 日期 (1 - 31)
| +---------- 小时 (0 - 23)
+------------ 分钟 (0 - 59)

Cron 是一种用于调度任务的时间表表达式，广泛应用于类 Unix 操作系统的任务调度工具中。GitHub Actions 也支持使用 Cron 表达式来定时触发工作流。Cron 表达式由五个字段组成，分别表示分钟、小时、日期、月份和星期几。

其中需要著名的特殊字符包括以下内容：

星号（*）：表示匹配任何值。例如，* * * * * 表示每分钟执行一次。
逗号（,）：用于分隔多个值。例如，0,15,30,45 * * * * 表示每小时的第 0、15、30 和 45 分钟执行。
连字符（-）：用于指定一个范围。例如，0-5 * * * * 表示每小时的第 0 到 5 分钟执行。
斜杠（/）：用于指定步长。例如，*/15 * * * * 表示每 15 分钟执行一次。

同时，需要注意的是 Github Actions 由于流量过大的问题，所以说对于定期触发的 Actions 并不会按照准确的时间执行，而是大概率会出现延后，在这里开通了 workflow_dispatch，可以在紧急情况下选择手动触发。

结语

以上便是本次介绍的全部内容了，在此限于篇幅，也要告一段落了，更多的静态网站部署工具，笔者多半也有使用过，或许改天会开一个合集，讲一下踩过的坑。

Github Pages 与 Github Actions 可以帮助开发者构建个人网站，更重要的是，其完全免费。使用它们吧，创作属于自己的内容。

女装收集

Fri, 14 May 2004 00:00:00 GMT

import { MediumZoom } from 'astro-pure/advanced'

本人女装收集，欢迎欣赏。原有大约 200 余张，不过大多为同一姿势连拍，或未达到分享标准，在此给出本人较为喜欢的照片。