Page 1 - Showing 15 of 105 posts
View all posts by years →
- 周记 Week46
2025-05-12 ~ 2025-05-18.
10 min read - 周记 Week45
2025-05-05 ~ 2025-05-11.
4 min read - 周记 Week44
2025-04-28 ~ 2025-05-04.
7 min read - Paper Reading: Unify MLLM
浅浅尝试读一下Unify MLLM。
6 min read - 周记 Week43
2025-04-21 ~ 2025-04-27.
4 min read - 一个简单的网站部署方案
一个简单的网站部署方案
11 min read - 周记 Week42
2025-04-14 ~ 2025-04-20.
4 min read - 周记 Week41
2025-04-07 ~ 2025-04-13.
4 min read - RL 学习笔记(14):基于人类反馈的强化学习 (RLHF)
基于人类反馈的强化学习 (RLHF)
10 min read - RL 学习笔记(13):近端策略优化 (PPO)
近端策略优化 (PPO)
10 min read - RL 学习笔记(12):置信域策略优化
置信域策略优化
11 min read - RL 学习笔记(11):Actor-Critic 方法
Actor-Critic 方法
11 min read - RL 学习笔记(10):策略梯度方法
策略梯度方法
12 min read - RL 学习笔记(9):集成规划与学习
集成规划与学习
12 min read - RL 学习笔记(8):n 步自举法
n 步自举法
12 min read