Blog Publications Projects Links About 🚇

Back

Blog

Page 3 - Showing 15 of 126 posts View all posts by years →

May 4, 2025

Paper Reading: Unify MLLM

浅浅尝试读一下Unify MLLM。

6 min read
- ai talk
- llm
- vlm
- unified mllm
May 3, 2025

周记 Week43

2025-04-21 ~ 2025-04-27.

4 min read
- daily talk
- weekly journal
Apr 30, 2025

周记 Week42

2025-04-14 ~ 2025-04-20.

4 min read
- daily talk
- weekly journal
Apr 21, 2025

RL 学习笔记（14）：基于人类反馈的强化学习 (RLHF)

基于人类反馈的强化学习 (RLHF)

10 min read
- tech talk
- rl
Apr 21, 2025

周记 Week41

2025-04-07 ~ 2025-04-13.

4 min read
- daily talk
- weekly journal
Apr 21, 2025

RL 学习笔记（13）：近端策略优化 (PPO)

近端策略优化 (PPO)

10 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（12）：置信域策略优化

置信域策略优化

11 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（11）：Actor-Critic 方法

Actor-Critic 方法

11 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（10）：策略梯度方法

策略梯度方法

12 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（9）：集成规划与学习

集成规划与学习

12 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（8）：n 步自举法

n 步自举法

12 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（7）：Q 学习、DQN 及相关改进

Q 学习

17 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（6）：时序差分学习

时序差分学习

13 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（5）：蒙特卡洛方法

蒙特卡洛方法

21 min read
- tech talk
- rl
Apr 21, 2025

RL 学习笔记（4）：动态规划

动态规划

19 min read
- tech talk
- rl