

RL 学习笔记(14):基于人类反馈的强化学习 (RLHF)
基于人类反馈的强化学习 (RLHF)
views
| comments
本博客基于西安交通大学强化学习课程 PPT 改编,历经 Gemini 以及本人总结以及整理形成。
背景:大型语言模型 (LLM) 与对齐挑战#
大型语言模型概述#
近年来,大型语言模型 (Large Language Models, LLM) 如 GPT 系列取得了显著进展。其发展依赖于 Transformer 架构、大规模预训练、指令微调以及与人类意图的对齐等关键技术。这些模型(如 ChatGPT, GPT-4)展示了强大的语言理解、生成和推理能力。
LLM 的训练通常包括:
- 预训练 (Pre-training):在海量文本数据上进行无监督学习,构建掌握语言知识的基础模型 (Base LLM)。
- 对齐微调 (Alignment Fine-tuning):通过进一步训练使模型行为符合人类的指令和价值观。这通常包含:
- 有监督微调 (SFT):学习遵循指令。
- 奖励建模 (RM):学习人类偏好。
- 强化学习 (RL):根据学习到的偏好进一步优化模型。
指令微调 (Instruction Fine-tuning / SFT)#
SFT 使用高质量的“指令-回答”对数据微调预训练模型,使其能够理解并执行各种任务指令,学习期望的输出风格。这是对齐过程的重要一步,通常作为 RLHF 的起点。
人类对齐 (Human Alignment)#
目标:确保 LLM 的行为符合人类的意图和价值观。这通常概括为 3H 原则:
- 有用性 (Helpfulness):提供准确、相关、有创造性的信息。
- 真实性 (Honesty):避免捏造信息或误导。
- 无害性 (Harmlessness):不生成冒犯性、歧视性或危险内容。
挑战:人类价值观复杂、主观且难以直接形式化为机器可优化的目标函数。
基于人类反馈的强化学习 (RLHF) 概述#
RLHF (Reinforcement Learning from Human Feedback) 是一种利用强化学习框架,并结合人类反馈来解决 LLM 对齐挑战的关键技术。
- 核心思想:我们很难直接编写一个奖励函数来精确定义什么是“有用”、“真实”和“无害”。RLHF 的巧妙之处在于:
- 不要求人类直接打分,而是让人类对模型生成的多个输出进行比较和排序(表达偏好)。
- 训练一个奖励模型 (Reward Model, RM) 来学习和模拟人类的这种偏好模式。
- 将学习到的 RM 作为奖励信号,使用强化学习(通常是 PPO)来微调 LLM,使其生成的内更容易获得 RM 的高分,从而间接地符合人类偏好。
- 发展与应用:RLHF(尤其以 InstructGPT/ChatGPT 为代表)已成为训练高质量、对齐良好的对话式 AI 模型(如 ChatGPT、Claude 等)的标准流程之一。
RLHF 实现流程:三阶段方法#
RLHF 通常包含以下三个主要阶段:
监督微调 (Supervised Fine-tuning, SFT)#
- 目标:为 LLM 提供一个良好的起点,使其初步具备遵循指令和生成符合格式要求回答的能力。
- 方法:使用高质量的“提示-回答”对数据对预训练 LLM 进行标准微调。
- 输出:SFT 模型 。
奖励模型训练 (Reward Model Training)#
- 目标:训练一个模型 ,能够根据人类偏好对(提示 ,回答 )对进行打分。
- 数据收集 (人类反馈):
- 选取一批提示 。
- 使用 SFT 模型(或后续 RL 模型)为每个 生成多个不同回答 。
- 人类标注者对这些回答进行比较排序,最常用的是成对比较:选出更好的回答 (winner) 和较差的回答 (loser)。
- 收集大量偏好数据 。
- 奖励模型 (RM):
- 架构:通常基于预训练 LLM,修改顶层为输出一个标量分数。
- 损失函数:常用成对排序损失 (Pairwise Ranking Loss),鼓励 : 其中 是 sigmoid 函数。
- 训练:使用偏好数据集 对 RM 参数 进行有监督训练。
- 输出:训练好的奖励模型 。
强化学习微调 (RL Fine-tuning with PPO)#
- 目标:使用 RM 作为奖励信号,通过 RL 进一步优化 SFT 模型 ,得到最终的对齐模型 。
- RL 设定:
- 策略 (Policy):LLM ,通常初始化自 ,参数为 。
- 动作空间:词汇表中的词元 (tokens)。
- 奖励:在生成完整回答 后,由 RM 计算奖励 。
- 正则化:为防止 RL 策略 显著偏离初始 SFT 模型 (可能导致模型能力下降或生成不连贯内容),通常在 PPO 目标中加入 KL 散度惩罚项。
- PPO 优化目标:
- 表示基于策略 采样得到的经验平均。
- 是 KL 惩罚系数。
- 目标是最大化 RM 奖励,同时控制与 SFT 模型的偏离程度。
- 训练流程:
- 从提示数据集中采样提示 。
- 使用当前策略 生成回答 。
- 计算 RM 奖励 。
- 计算 KL 惩罚项(相对于参考策略 )。
- 使用 PPO 算法(通常是 Actor-Critic 实现,需要一个价值网络 )更新策略参数 ,以优化上述带 KL 惩罚的目标。
- 输出:最终的 RLHF 模型 。
RLAIF:从 AI 反馈中强化学习#
动机:RLHF 依赖大量人类标注,成本高昂且扩展性受限。RLAIF (Reinforcement Learning from AI Feedback) 提出用强大的 AI 模型代替人类进行偏好标注。
- 核心流程:
- 使用基础模型生成回答对 。
- AI 标注器 (AI Labeler)(一个强大的 LLM)被提示来比较 并输出偏好(可能是硬标签或软标签/概率 )。可以结合思维链 (CoT) 提示来提高 AI 标注的质量。
- 使用这些 AI 生成的偏好标签训练奖励模型 (RM)。
- 后续的 RL 微调阶段与 RLHF 完全相同,只是使用的 RM 是从 AI 反馈中学习得到的。
- 本质:RLAIF 可以看作是将一个强大 AI 标注模型的偏好能力蒸馏到一个更小的、可用于 RL 的奖励模型中。
讨论:RLHF vs SFT#
RLHF 相对于单纯的 SFT 在对齐方面具有一些优势:
- 反馈粒度:RLHF 基于对整个生成结果的整体偏好进行优化,更符合人类评估方式;而 SFT 基于每个词元的预测损失,粒度更细。
- 探索与多样性:RL 的探索机制和基于整体奖励的优化,使得 RLHF 更容易生成多样化的高质量回答,而 SFT 可能更容易过拟合训练数据的特定风格。
- 缓解“幻觉”:通过精心设计 RM(例如,对不确定或错误的回答给予低分或负分,对“我不知道”的回答给予中性或正分),RLHF 可能比 SFT 更有效地抑制模型的凭空捏造(幻觉)行为。
总结#
- RLHF (及 RLAIF) 是对齐大型语言模型与人类价值观和意图、提升模型(如对话助手)性能的关键技术范式。
- 它巧妙地绕开了直接定义复杂奖励函数的难题,通过学习人类(或 AI)的偏好来构建奖励模型 (RM)。
- 结合 SFT(提供良好起点)、RM 训练(学习偏好)和 PPO(优化策略以最大化偏好得分并保持稳定性),形成了一套行之有效的 LLM 对齐流程。
- 理解 RLHF 的原理对于开发和评估负责任、有用的 AI 系统至关重要。