RL 学习笔记（14）：基于人类反馈的强化学习 (RLHF)

RL Note

本博客基于西安交通大学强化学习课程 PPT 改编，历经 Gemini 以及本人总结以及整理形成。

背景：大型语言模型 (LLM) 与对齐挑战#

大型语言模型概述#

近年来，大型语言模型 (Large Language Models, LLM) 如 GPT 系列取得了显著进展。其发展依赖于 Transformer 架构、大规模预训练、指令微调以及与人类意图的对齐等关键技术。这些模型（如 ChatGPT, GPT-4）展示了强大的语言理解、生成和推理能力。

LLM 的训练通常包括：

预训练 (Pre-training)：在海量文本数据上进行无监督学习，构建掌握语言知识的基础模型 (Base LLM)。
对齐微调 (Alignment Fine-tuning)：通过进一步训练使模型行为符合人类的指令和价值观。这通常包含：
- 有监督微调 (SFT)：学习遵循指令。
- 奖励建模 (RM)：学习人类偏好。
- 强化学习 (RL)：根据学习到的偏好进一步优化模型。

指令微调 (Instruction Fine-tuning / SFT)#

SFT 使用高质量的“指令-回答”对数据微调预训练模型，使其能够理解并执行各种任务指令，学习期望的输出风格。这是对齐过程的重要一步，通常作为 RLHF 的起点。

人类对齐 (Human Alignment)#

目标：确保 LLM 的行为符合人类的意图和价值观。这通常概括为 3H 原则：

有用性 (Helpfulness)：提供准确、相关、有创造性的信息。
真实性 (Honesty)：避免捏造信息或误导。
无害性 (Harmlessness)：不生成冒犯性、歧视性或危险内容。

挑战：人类价值观复杂、主观且难以直接形式化为机器可优化的目标函数。

基于人类反馈的强化学习 (RLHF) 概述#

RLHF (Reinforcement Learning from Human Feedback) 是一种利用强化学习框架，并结合人类反馈来解决 LLM 对齐挑战的关键技术。

核心思想：我们很难直接编写一个奖励函数来精确定义什么是“有用”、“真实”和“无害”。RLHF 的巧妙之处在于：
1. 不要求人类直接打分，而是让人类对模型生成的多个输出进行比较和排序（表达偏好）。
2. 训练一个奖励模型 (Reward Model, RM) $r_\phi(x, y)$ 来学习和模拟人类的这种偏好模式。
3. 将学习到的 RM 作为奖励信号，使用强化学习（通常是 PPO）来微调 LLM，使其生成的内更容易获得 RM 的高分，从而间接地符合人类偏好。
发展与应用：RLHF（尤其以 InstructGPT/ChatGPT 为代表）已成为训练高质量、对齐良好的对话式 AI 模型（如 ChatGPT、Claude 等）的标准流程之一。

RLHF 实现流程：三阶段方法#

RLHF 通常包含以下三个主要阶段：

监督微调 (Supervised Fine-tuning, SFT)#

目标：为 LLM 提供一个良好的起点，使其初步具备遵循指令和生成符合格式要求回答的能力。
方法：使用高质量的“提示-回答”对数据对预训练 LLM 进行标准微调。
输出：SFT 模型 $\pi^{SFT}$ 。

奖励模型训练 (Reward Model Training)#

目标：训练一个模型 $r_\phi(x, y)$ ，能够根据人类偏好对（提示 $x$ ，回答 $y$ ）对进行打分。
数据收集 (人类反馈)：
1. 选取一批提示 $x$ 。
2. 使用 SFT 模型（或后续 RL 模型）为每个 $x$ 生成多个不同回答 $y_1, y_2, \dots, y_k$ 。
3. 人类标注者对这些回答进行比较排序，最常用的是成对比较：选出更好的回答 $y_w$ (winner) 和较差的回答 $y_l$ (loser)。
4. 收集大量偏好数据 $D = \{(x, y_w, y_l)\}$ 。
奖励模型 (RM)：
- 架构：通常基于预训练 LLM，修改顶层为输出一个标量分数。
- 损失函数：常用成对排序损失 (Pairwise Ranking Loss)，鼓励 $r_\phi(x, y_w) > r_\phi(x, y_l)$ ： $loss(\phi) = - \mathbb{E}_{(x, y_w, y_l) \sim D} [\log(\sigma(r_{\phi}(x, y_w) - r_{\phi}(x, y_l)))]$ 其中 $\sigma$ 是 sigmoid 函数。
训练：使用偏好数据集 $D$ 对 RM 参数 $\phi$ 进行有监督训练。
输出：训练好的奖励模型 $r_\phi$ 。

强化学习微调 (RL Fine-tuning with PPO)#

目标：使用 RM 作为奖励信号，通过 RL 进一步优化 SFT 模型 $\pi^{SFT}$ ，得到最终的对齐模型 $\pi_\theta^{RL}$ 。
RL 设定：
- 策略 (Policy)：LLM $\pi_\theta(y|x)$ ，通常初始化自 $\pi^{SFT}$ ，参数为 $\theta$ 。
- 动作空间：词汇表中的词元 (tokens)。
- 奖励：在生成完整回答 $y$ 后，由 RM 计算奖励 $r(x, y) = r_\phi(x, y)$ 。
- 正则化：为防止 RL 策略 $\pi_\theta$ 显著偏离初始 SFT 模型 $\pi^{SFT}$ （可能导致模型能力下降或生成不连贯内容），通常在 PPO 目标中加入 KL 散度惩罚项。
PPO 优化目标： $\text{Objective}(\theta) = \hat{\mathbb{E}}_{x \sim D, y \sim \pi_\theta(\cdot|x)} [r_\phi(x, y) - \beta KL(\pi_{\theta}(\cdot|x) || \pi^{SFT}(\cdot|x))]$
- $\hat{\mathbb{E}}$ 表示基于策略 $\pi_\theta$ 采样得到的经验平均。
- $\beta$ 是 KL 惩罚系数。
- 目标是最大化 RM 奖励，同时控制与 SFT 模型的偏离程度。
训练流程：
1. 从提示数据集中采样提示 $x$ 。
2. 使用当前策略 $\pi_\theta$ 生成回答 $y$ 。
3. 计算 RM 奖励 $r_\phi(x, y)$ 。
4. 计算 KL 惩罚项（相对于参考策略 $\pi^{SFT}$ ）。
5. 使用 PPO 算法（通常是 Actor-Critic 实现，需要一个价值网络 $V$ ）更新策略参数 $\theta$ ，以优化上述带 KL 惩罚的目标。
输出：最终的 RLHF 模型 $\pi_\theta^{RL}$ 。

RLAIF：从 AI 反馈中强化学习#

动机：RLHF 依赖大量人类标注，成本高昂且扩展性受限。RLAIF (Reinforcement Learning from AI Feedback) 提出用强大的 AI 模型代替人类进行偏好标注。

核心流程：
1. 使用基础模型生成回答对 $(y_1, y_2)$ 。
2. AI 标注器 (AI Labeler)（一个强大的 LLM）被提示来比较 $(y_1, y_2)$ 并输出偏好（可能是硬标签或软标签/概率 $p_1$ ）。可以结合思维链 (CoT) 提示来提高 AI 标注的质量。
3. 使用这些 AI 生成的偏好标签训练奖励模型 (RM)。
4. 后续的 RL 微调阶段与 RLHF 完全相同，只是使用的 RM 是从 AI 反馈中学习得到的。
本质：RLAIF 可以看作是将一个强大 AI 标注模型的偏好能力蒸馏到一个更小的、可用于 RL 的奖励模型中。

讨论：RLHF vs SFT#

RLHF 相对于单纯的 SFT 在对齐方面具有一些优势：

反馈粒度：RLHF 基于对整个生成结果的整体偏好进行优化，更符合人类评估方式；而 SFT 基于每个词元的预测损失，粒度更细。
探索与多样性：RL 的探索机制和基于整体奖励的优化，使得 RLHF 更容易生成多样化的高质量回答，而 SFT 可能更容易过拟合训练数据的特定风格。
缓解“幻觉”：通过精心设计 RM（例如，对不确定或错误的回答给予低分或负分，对“我不知道”的回答给予中性或正分），RLHF 可能比 SFT 更有效地抑制模型的凭空捏造（幻觉）行为。

总结#

RLHF (及 RLAIF) 是对齐大型语言模型与人类价值观和意图、提升模型（如对话助手）性能的关键技术范式。
它巧妙地绕开了直接定义复杂奖励函数的难题，通过学习人类（或 AI）的偏好来构建奖励模型 (RM)。
结合 SFT（提供良好起点）、RM 训练（学习偏好）和 PPO（优化策略以最大化偏好得分并保持稳定性），形成了一套行之有效的 LLM 对齐流程。
理解 RLHF 的原理对于开发和评估负责任、有用的 AI 系统至关重要。