Axi's Blog

Back

RL 学习笔记(14):基于人类反馈的强化学习 (RLHF)Blur image

本博客基于西安交通大学强化学习课程 PPT 改编,历经 Gemini 以及本人总结以及整理形成。

背景:大型语言模型 (LLM) 与对齐挑战#

大型语言模型概述#

近年来,大型语言模型 (Large Language Models, LLM) 如 GPT 系列取得了显著进展。其发展依赖于 Transformer 架构、大规模预训练、指令微调以及与人类意图的对齐等关键技术。这些模型(如 ChatGPT, GPT-4)展示了强大的语言理解、生成和推理能力。

LLM 的训练通常包括:

  1. 预训练 (Pre-training):在海量文本数据上进行无监督学习,构建掌握语言知识的基础模型 (Base LLM)。
  2. 对齐微调 (Alignment Fine-tuning):通过进一步训练使模型行为符合人类的指令和价值观。这通常包含:
    • 有监督微调 (SFT):学习遵循指令。
    • 奖励建模 (RM):学习人类偏好。
    • 强化学习 (RL):根据学习到的偏好进一步优化模型。

指令微调 (Instruction Fine-tuning / SFT)#

SFT 使用高质量的“指令-回答”对数据微调预训练模型,使其能够理解并执行各种任务指令,学习期望的输出风格。这是对齐过程的重要一步,通常作为 RLHF 的起点。

人类对齐 (Human Alignment)#

目标:确保 LLM 的行为符合人类的意图和价值观。这通常概括为 3H 原则

  • 有用性 (Helpfulness):提供准确、相关、有创造性的信息。
  • 真实性 (Honesty):避免捏造信息或误导。
  • 无害性 (Harmlessness):不生成冒犯性、歧视性或危险内容。

挑战:人类价值观复杂、主观且难以直接形式化为机器可优化的目标函数。

基于人类反馈的强化学习 (RLHF) 概述#

RLHF (Reinforcement Learning from Human Feedback) 是一种利用强化学习框架,并结合人类反馈来解决 LLM 对齐挑战的关键技术。

  • 核心思想:我们很难直接编写一个奖励函数来精确定义什么是“有用”、“真实”和“无害”。RLHF 的巧妙之处在于:
    1. 不要求人类直接打分,而是让人类对模型生成的多个输出进行比较和排序(表达偏好)。
    2. 训练一个奖励模型 (Reward Model, RM) rϕ(x,y)r_\phi(x, y) 来学习和模拟人类的这种偏好模式。
    3. 将学习到的 RM 作为奖励信号,使用强化学习(通常是 PPO)来微调 LLM,使其生成的内更容易获得 RM 的高分,从而间接地符合人类偏好。
  • 发展与应用:RLHF(尤其以 InstructGPT/ChatGPT 为代表)已成为训练高质量、对齐良好的对话式 AI 模型(如 ChatGPT、Claude 等)的标准流程之一。

RLHF 实现流程:三阶段方法#

RLHF 通常包含以下三个主要阶段:

监督微调 (Supervised Fine-tuning, SFT)#

  • 目标:为 LLM 提供一个良好的起点,使其初步具备遵循指令和生成符合格式要求回答的能力。
  • 方法:使用高质量的“提示-回答”对数据对预训练 LLM 进行标准微调。
  • 输出:SFT 模型 πSFT\pi^{SFT}

奖励模型训练 (Reward Model Training)#

  • 目标:训练一个模型 rϕ(x,y)r_\phi(x, y),能够根据人类偏好对(提示 xx,回答 yy)对进行打分。
  • 数据收集 (人类反馈)
    1. 选取一批提示 xx
    2. 使用 SFT 模型(或后续 RL 模型)为每个 xx 生成多个不同回答 y1,y2,,yky_1, y_2, \dots, y_k
    3. 人类标注者对这些回答进行比较排序,最常用的是成对比较:选出更好的回答 ywy_w (winner) 和较差的回答 yly_l (loser)。
    4. 收集大量偏好数据 D={(x,yw,yl)}D = \{(x, y_w, y_l)\}
  • 奖励模型 (RM)
    • 架构:通常基于预训练 LLM,修改顶层为输出一个标量分数。
    • 损失函数:常用成对排序损失 (Pairwise Ranking Loss),鼓励 rϕ(x,yw)>rϕ(x,yl)r_\phi(x, y_w) > r_\phi(x, y_l)loss(ϕ)=E(x,yw,yl)D[log(σ(rϕ(x,yw)rϕ(x,yl)))]loss(\phi) = - \mathbb{E}_{(x, y_w, y_l) \sim D} [\log(\sigma(r_{\phi}(x, y_w) - r_{\phi}(x, y_l)))] 其中 σ\sigma 是 sigmoid 函数。
  • 训练:使用偏好数据集 DD 对 RM 参数 ϕ\phi 进行有监督训练。
  • 输出:训练好的奖励模型 rϕr_\phi

强化学习微调 (RL Fine-tuning with PPO)#

  • 目标:使用 RM 作为奖励信号,通过 RL 进一步优化 SFT 模型 πSFT\pi^{SFT},得到最终的对齐模型 πθRL\pi_\theta^{RL}
  • RL 设定
    • 策略 (Policy):LLM πθ(yx)\pi_\theta(y|x),通常初始化自 πSFT\pi^{SFT},参数为 θ\theta
    • 动作空间:词汇表中的词元 (tokens)。
    • 奖励:在生成完整回答 yy 后,由 RM 计算奖励 r(x,y)=rϕ(x,y)r(x, y) = r_\phi(x, y)
    • 正则化:为防止 RL 策略 πθ\pi_\theta 显著偏离初始 SFT 模型 πSFT\pi^{SFT}(可能导致模型能力下降或生成不连贯内容),通常在 PPO 目标中加入 KL 散度惩罚项
  • PPO 优化目标Objective(θ)=E^xD,yπθ(x)[rϕ(x,y)βKL(πθ(x)πSFT(x))]\text{Objective}(\theta) = \hat{\mathbb{E}}_{x \sim D, y \sim \pi_\theta(\cdot|x)} [r_\phi(x, y) - \beta KL(\pi_{\theta}(\cdot|x) || \pi^{SFT}(\cdot|x))]
    • E^\hat{\mathbb{E}} 表示基于策略 πθ\pi_\theta 采样得到的经验平均。
    • β\beta 是 KL 惩罚系数。
    • 目标是最大化 RM 奖励,同时控制与 SFT 模型的偏离程度。
  • 训练流程
    1. 从提示数据集中采样提示 xx
    2. 使用当前策略 πθ\pi_\theta 生成回答 yy
    3. 计算 RM 奖励 rϕ(x,y)r_\phi(x, y)
    4. 计算 KL 惩罚项(相对于参考策略 πSFT\pi^{SFT})。
    5. 使用 PPO 算法(通常是 Actor-Critic 实现,需要一个价值网络 VV)更新策略参数 θ\theta,以优化上述带 KL 惩罚的目标。
  • 输出:最终的 RLHF 模型 πθRL\pi_\theta^{RL}

RLAIF:从 AI 反馈中强化学习#

动机:RLHF 依赖大量人类标注,成本高昂且扩展性受限。RLAIF (Reinforcement Learning from AI Feedback) 提出用强大的 AI 模型代替人类进行偏好标注。

  • 核心流程
    1. 使用基础模型生成回答对 (y1,y2)(y_1, y_2)
    2. AI 标注器 (AI Labeler)(一个强大的 LLM)被提示来比较 (y1,y2)(y_1, y_2) 并输出偏好(可能是硬标签或软标签/概率 p1p_1)。可以结合思维链 (CoT) 提示来提高 AI 标注的质量。
    3. 使用这些 AI 生成的偏好标签训练奖励模型 (RM)。
    4. 后续的 RL 微调阶段与 RLHF 完全相同,只是使用的 RM 是从 AI 反馈中学习得到的。
  • 本质:RLAIF 可以看作是将一个强大 AI 标注模型的偏好能力蒸馏到一个更小的、可用于 RL 的奖励模型中。

讨论:RLHF vs SFT#

RLHF 相对于单纯的 SFT 在对齐方面具有一些优势:

  • 反馈粒度:RLHF 基于对整个生成结果的整体偏好进行优化,更符合人类评估方式;而 SFT 基于每个词元的预测损失,粒度更细。
  • 探索与多样性:RL 的探索机制和基于整体奖励的优化,使得 RLHF 更容易生成多样化的高质量回答,而 SFT 可能更容易过拟合训练数据的特定风格。
  • 缓解“幻觉”:通过精心设计 RM(例如,对不确定或错误的回答给予低分或负分,对“我不知道”的回答给予中性或正分),RLHF 可能比 SFT 更有效地抑制模型的凭空捏造(幻觉)行为。

总结#

  • RLHF (及 RLAIF) 是对齐大型语言模型与人类价值观和意图、提升模型(如对话助手)性能的关键技术范式。
  • 它巧妙地绕开了直接定义复杂奖励函数的难题,通过学习人类(或 AI)的偏好来构建奖励模型 (RM)。
  • 结合 SFT(提供良好起点)、RM 训练(学习偏好)和 PPO(优化策略以最大化偏好得分并保持稳定性),形成了一套行之有效的 LLM 对齐流程。
  • 理解 RLHF 的原理对于开发和评估负责任、有用的 AI 系统至关重要。
RL 学习笔记(14):基于人类反馈的强化学习 (RLHF)
https://axi404.top/blog/rl-note-14
Author 阿汐
Published at April 21, 2025
Comment seems to stuck. Try to refresh?✨