浙大：奖励重分配优化LLM强化学习

传统强化学习从人类反馈（RLHF）中获取奖励信号存在稀疏和延迟问题。论文提出了R3HF方法，通过细粒度的奖励再分配机制，减少了人类标注的需求，提高了RLHF的效率和性能。

大模型任我行

1104人浏览 · 2024-11-21 08:00:00

大模型任我行 · 2024-11-21 08:00:00 发布

在这里插入图片描述

📖标题：R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback
🌐来源：arXiv, 2411.08302

🌟摘要

🔸基于人类反馈的强化学习（RLHF）为将大型语言模型（LLM）与人类偏好相匹配提供了一种范式。这涉及基于成对人类反馈的奖励模型的初始训练。随后，在强化学习中使用奖励模型来评估每个生成句子的整体得分，从而进一步指导LLM的优化。然而，当前的方法有一个显著的缺点：它们将单个、稀疏和延迟的奖励分配给整个输出序列。这可能会忽略每个代币对预期结果的一些重大个人贡献。
🔸为了克服这一局限性，我们提出了一种新的奖励再分配方法，称为R3HF，它有助于更细粒度的令牌级奖励分配。具体来说，我们的方法将奖励模型的奖励预测任务视为回归问题。因此，通过评估每个代币对奖励模型输出的具体贡献来计算重新分配的奖励。这种详细的方法提高了模型对语言细微差别的理解，从而更精确地提高了其性能。
🔸我们的方法旨在与大多数当前技术无缝集成，同时产生最小的计算成本。通过对不同数据集和任务的全面实验，我们验证了我们方法的有效性和优越性

🛎️文章简介

🔸研究问题：传统强化学习从人类反馈（RLHF）中获取奖励信号存在稀疏和延迟问题。
🔸主要贡献：论文提出了R3HF方法，通过细粒度的奖励再分配机制，减少了人类标注的需求，提高了RLHF的效率和性能。

📝重点思路

🔺相关工作

🔸LLM：研究重心是提高其效率、适应性和与人类价值观的一致性，RLHF的集成是一种旨在通过利用包含人类偏好的奖励模型来完善法学硕士行为的策略。
🔸RLHF和细粒度奖励：研究涉及根据一个或多个所需特征收集对模型生成的输出对的人类评估，依赖于大量劳动力的细粒度人工标记数据集。

🔺论文方案

🔸主要思想：将奖励预测任务视为回归问题，通过评估每个token对奖励模型输出的具体贡献来重新分配奖励。
🔸数学建模：将自然语言生成视为序列马尔可夫决策过程（SDP），其中奖励分配不受马尔可夫性质的约束。通过时间差分计算来推断每个token的信用，提供更细粒度的语言生成过程指导。
🔸优化方法：在强化学习阶段，使用奖励模型在每个时间步分配奖励，并使用近端策略优化（PPO）算法优化语言模型。

🔎分析总结

🔸通过训练使用R3HF，在所有测试任务中都表现出一致的性能提升。
🔸R3HF在摘要生成和问答任务中显著提高了平均分数和胜率。
🔸在有害性缓解与帮助性增强任务中，R3HF在保持高帮助性胜率的同时，显著降低了成本。
🔸R3HF在生成响应的稳定性和多样性方面也表现出优势。

💡个人观点

论文的核心是重新分配自然语言序列的奖励值，为更重要的token提供更多的关注度，有些类似注意力机制思想。

🧩附录

在这里插入图片描述

九章云极普惠算力

更多推荐

Big快速上手：如何用简单的Markdown语法创建专业演示文稿

想要快速制作专业演示文稿却不想学习复杂的软件？Big是专为创意工作者和忙碌开发者设计的极简演示系统，让你告别繁琐配置，专注于内容本身。本文将为你介绍Big的核心功能、快速入门方法以及如何用简单的HTML创建令人印象深刻的演示文稿。## 🚀 什么是Big演示文稿系统？Big是一个轻量级的演示文稿系统，整个系统仅约16KB大小，采用纯HTML+CSS+JavaScript技术栈。它专为创意工

九章云极普惠算力

Janus-Pro-7B代码实例：修改app.py启用float16降低显存需求

本文介绍了如何在星图GPU平台上自动化部署Janus-Pro-7B镜像，并通过修改代码启用float16精度以降低显存需求。该镜像支持多模态AI任务，如图像理解和文生图生成，使其能在消费级显卡上高效运行，适用于快速内容创作和原型开发。

九章云极普惠算力

如何自定义Lunar管理面板：Filament扩展开发实战

Lunar是一个强大的开源无头电商平台，专为Laravel框架设计。它提供了完整的Filament管理面板，让开发者能够轻松管理电商业务。本文将带你深入了解如何自定义Lunar管理面板，通过Filament扩展开发实现个性化功能定制。## 什么是Lunar管理面板？Lunar管理面板是基于Filament构建的后台管理系统，提供了产品管理、订单处理、客户管理、库存控制等核心电商功能。通过F