浙大:奖励重分配优化LLM强化学习
传统强化学习从人类反馈(RLHF)中获取奖励信号存在稀疏和延迟问题。论文提出了R3HF方法,通过细粒度的奖励再分配机制,减少了人类标注的需求,提高了RLHF的效率和性能。

📖标题:R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback
🌐来源:arXiv, 2411.08302
🌟摘要
🔸基于人类反馈的强化学习(RLHF)为将大型语言模型(LLM)与人类偏好相匹配提供了一种范式。这涉及基于成对人类反馈的奖励模型的初始训练。随后,在强化学习中使用奖励模型来评估每个生成句子的整体得分,从而进一步指导LLM的优化。然而,当前的方法有一个显著的缺点:它们将单个、稀疏和延迟的奖励分配给整个输出序列。这可能会忽略每个代币对预期结果的一些重大个人贡献。
🔸为了克服这一局限性,我们提出了一种新的奖励再分配方法,称为R3HF,它有助于更细粒度的令牌级奖励分配。具体来说,我们的方法将奖励模型的奖励预测任务视为回归问题。因此,通过评估每个代币对奖励模型输出的具体贡献来计算重新分配的奖励。这种详细的方法提高了模型对语言细微差别的理解,从而更精确地提高了其性能。
🔸我们的方法旨在与大多数当前技术无缝集成,同时产生最小的计算成本。通过对不同数据集和任务的全面实验,我们验证了我们方法的有效性和优越性
🛎️文章简介
🔸研究问题:传统强化学习从人类反馈(RLHF)中获取奖励信号存在稀疏和延迟问题。
🔸主要贡献:论文提出了R3HF方法,通过细粒度的奖励再分配机制,减少了人类标注的需求,提高了RLHF的效率和性能。
📝重点思路
🔺相关工作
🔸LLM:研究重心是提高其效率、适应性和与人类价值观的一致性,RLHF的集成是一种旨在通过利用包含人类偏好的奖励模型来完善法学硕士行为的策略。
🔸RLHF和细粒度奖励:研究涉及根据一个或多个所需特征收集对模型生成的输出对的人类评估,依赖于大量劳动力的细粒度人工标记数据集。
🔺论文方案
🔸主要思想:将奖励预测任务视为回归问题,通过评估每个token对奖励模型输出的具体贡献来重新分配奖励。
🔸数学建模:将自然语言生成视为序列马尔可夫决策过程(SDP),其中奖励分配不受马尔可夫性质的约束。通过时间差分计算来推断每个token的信用,提供更细粒度的语言生成过程指导。
🔸优化方法:在强化学习阶段,使用奖励模型在每个时间步分配奖励,并使用近端策略优化(PPO)算法优化语言模型。
🔎分析总结
🔸通过训练使用R3HF,在所有测试任务中都表现出一致的性能提升。
🔸R3HF在摘要生成和问答任务中显著提高了平均分数和胜率。
🔸在有害性缓解与帮助性增强任务中,R3HF在保持高帮助性胜率的同时,显著降低了成本。
🔸R3HF在生成响应的稳定性和多样性方面也表现出优势。
💡个人观点
论文的核心是重新分配自然语言序列的奖励值,为更重要的token提供更多的关注度,有些类似注意力机制思想。
🧩附录


更多推荐
所有评论(0)