Page 1 - Showing 15 of 22 posts
View all posts by years →
-
经验分享 PPT本人 2025 年 10 月 12 日 AI 学组经验分享 PPT。
1 min read -
乘凉,我的保研经验贴关于这些年来走过的路,兴趣,进步,以及长期主义
25 min read -
致新生的你致新生的你
160 min read -
本科生代表致新生发言在老师的邀请下,我在大一新生入学的典礼上作为本科生代表进行了发言,这里是发言稿。
12 min read -
RL 学习笔记(14):基于人类反馈的强化学习 (RLHF)基于人类反馈的强化学习 (RLHF)
10 min read -
RL 学习笔记(13):近端策略优化 (PPO)近端策略优化 (PPO)
10 min read -
RL 学习笔记(12):置信域策略优化置信域策略优化
11 min read -
RL 学习笔记(11):Actor-Critic 方法Actor-Critic 方法
11 min read -
RL 学习笔记(10):策略梯度方法策略梯度方法
12 min read -
RL 学习笔记(9):集成规划与学习集成规划与学习
12 min read -
RL 学习笔记(8):n 步自举法n 步自举法
12 min read -
RL 学习笔记(7):Q 学习、DQN 及相关改进Q 学习
17 min read -
RL 学习笔记(6):时序差分学习时序差分学习
13 min read -
RL 学习笔记(5):蒙特卡洛方法蒙特卡洛方法
21 min read -
RL 学习笔记(4):动态规划动态规划
19 min read