GRPO算法解析：从PPO到GRPO，大模型强化学习入门指南！

本文介绍了GRPO算法，一种简化版的PPO强化学习算法。文章从强化学习基本概念讲起，详细推导了GRPO的目标函数和优势函数计算方法。GRPO通过简化优势函数计算，保持算法有效性的同时提高了计算效率，更适合作为大模型强化学习的入门算法。

datian1234

963人浏览 · 2025-11-03 17:09:28

datian1234 · 2025-11-03 17:09:28 发布

GRPO 算法，全称是Group Relative Policy Optimization，这是Deepseek团队在论文**《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》[1]**中提出来的一个强化学习算法。很多文章在讲解时遵循着先讲PPO，然后讲GRPO的顺序，因为GRPO是从PPO算法改进而来，原始论文中也是这么一个顺序。GRPO简化了PPO算法，理解起来更容易，所以这篇文章将会略过PPO算法，直接讲解GRPO。

简介

GRPO是一种策略梯度算法。这个算法涉及很多概念，但核心还是挺简单的，就是求期望的梯度。简单来说是这么一个流程：给定一个prompt，大模型按概率分布生成token序列，每个token都有一个概率值，把这些概率值乘以这个token相对应的奖励，求和，就有了目标函数，再通过求梯度来最大化这个目标函数。

学习前需要了解强化学习的一些基本概念。

基本概念

强化学习的基本模型，来自引用1中的视频

强化学习的一个基本模型：Agent产生一系列的动作（Action），这些动作作用到环境（Environment）中，改变了状态（State），并且得到奖励（Reward）。然后Agent根据当前状态做下一个动作，直到State变成结束的状态。

轨迹（Trajectory）

代表一系列的状态和动作的集合。

最开始环境的state是，然后agent做了动作，state切换为，然后agent继续执行了动作……

Reward（奖励）和 Return（回报）

奖励（reward）指单步回馈；

回报（return）指从当前时刻起至终止的累积折扣和。下面的代表奖励函数，轨迹的回报就是所有奖励的和。

目标函数

既然是策略”梯度“算法，要求梯度，首先得有一个目标函数。目标函数是轨迹（Trajectory）的回报（Return）的期望，假设这里的轨迹

服从分布，是这个的参数（一般指神经网络里的参数）。要强调的是，这个公式的参数是，参数可以理解为自变量，例如函数的参数是x，这里的和x是一回事。之所以要强调这个，是因为后面需要求一个公式的梯度，在一个式子中分清楚哪些是参数，哪些是常数，理解起来比较容易。

我们的目标是最大化这个期望，首先展开一下期望。下面这个式子代表轨迹（Trajectory）的回报（Return），乘以这个轨迹的概率，求和得到期望。

然后求这个期望的梯度，因为参数是，按照乘积的微分，有公式(3)。然后因为跟参数无关，所以等于0，约去。然后变形，乘一个，再除一个，得到公式5。

把放到前面，视为一个整体，可以看作是求的期望。然后把期望改为用蒙特卡洛法，采样N份求平均值的方式，这里的代表第n条轨迹，即

根据的求导公式，有

也就是

代入到刚才的求平均值公式中

接着来看一下怎么求，也就是第n条轨迹的概率。回顾一下之前说的，轨迹是

一条轨迹的概率等于初始状态的概率，乘以这个状态下动作的概率，然后乘以动作发生后，迁移到状态的概率……

根据对数的基本运算性质，，有

对求导，可以约去跟无关的项，得到下面的式子。

整理后得到

这上面其实就是最简单的梯度策略法的公式。这个式子的计算是对每条轨迹的所有时刻求，然后再乘以，再求这N条轨迹的平均。

REINFORCE 算法

上面的式子可以继续优化，一条轨迹里的每个动作，都是求

，这里的是固定不变的，因为它是某条轨迹的奖励。也就是说我们用固定不变的权重来增加或减少行动的概率。下面的公式忽略了奖励的折扣。

但很明显，一个动作的好坏，是根据这个动作后能获得的奖励和来评估的，也就是说某个动作的好坏，只跟做了这个动作后能获取到的奖励和有关系。

所以可以有这么一个优化，不再计算整条轨迹的，只计算当前动作后的奖励。即

为了公式看起来不那么复杂，上面式子的就不改变写法了。

优势函数

更进一步，这个

还能用优势函数代替。举个例子，班上有两个学生考试分别考了一个80分，一个50分，直接用绝对值分数去评估是不太好的，如果平均分是70分，那60分就显得很差了，但如果恰好这次题目很难，平均分是30分，那么50分相对来说就是个不错的成绩。优势函数在这个例子中可以简单理解为分数减去平均值，也就是跟平均分相差多少。

PPO算法会涉及到两个概念，动作价值函数和状态价值函数。

状态价值函数，一般用表示，代表在状态s下，期望的回报。

动作价值函数，一般用表示，代表在状态s下，做了动作a，得到的期望回报。

优势函数，用表示，代表这个动作相对其它动作的优势。

使用优势函数代替

更进一步，还可以使用GAE优势函数。这里就不展开了，GRPO的一大改进就是简化了优势函数的计算，上面这些其实都可以忽略。

重要性采样

简单来说，重要性采样是利用从其他概率分布中采样的数据来计算某个概率分布的期望值。可以简单地从公式变形来理解。期望公式为

，是从概率分布中采样而来。在式子插入中插入一个，等式不变。

大模型里的强化学习

如下图，之前说到强化学习的基本概念有agent、reward、action、state、environment等，那大模型是怎么对应到这些概念上的呢？

agent：agent就是指准备要进行强化学习训练的大模型

action：大模型生成的一个token。给大模型输入一个prompt后，大模型会逐个生成token，每一次吐出来的一个token就是一个action。

reward：每个token的奖励，这由奖励函数计算。

state：输入prompt后，大模型输出token时的状态

计算优势函数

首先看优势函数的计算，如前面所说，GRPO相比PPO算法的一大改进，就是简化了优势函数的计算。

1.输入prompts，生成G个回答。

2.将每个回答传给reward函数，得到奖励。

3.将reward值归一化。具体是求这G个回答的奖励的平均值，然后reward-均值，再除以标准差。

4.把上面计算得到的reward，赋给每一个token。也就是说，每个action（生成一个token）不会单独计算一个奖励，而是使用第3步计算得到的平均奖励。

再回过头看一下GPRO的目标函数。

看起来很复杂，我们把公式简化一下，没必要的全删了。其实和之前推导的式子差不多。

优势函数A已经计算完了，指当前训练中的模型的概率值，也就是token的概率。指旧模型的概率值。这也就是前面提到的重要性采样。

为什么要使用重要性采样

一般说GRPO是on policy算法，为什么还需要用到重要性采样呢？来看一下论文中的算法步骤图：

重点看第10行，在这之前采样G个回答用的概率分布

，第10行会迭代多次，也就是用这批数据会使用多次。在迭代中policy model会根据梯度反向传播，更新训练模型。这样的话在第二次迭代时，训练模型已经跟原来采样回答的模型不一样了，所以需要使用重要性采样修正。

所以GRPO算法虽然重复用了「老数据」，但一般还会被称为on policy算法，因为这里的两个概率分布差异很小。如果数据只用一次，那第10行就不能迭代了，而是要重新采样回答，这样数据利用率就太低了。

裁剪函数

简单来说就是一个防止新策略概率跟旧策略概率比值变化过大的函数。保证


1- epislon < pi_new / pi_old < 1 + epislon

KL散度

这个也是为了防止新模型与旧模型相差过大，和正则化的作用差不多。

GRPO简化了PPO算法，去掉了复杂的优势函数。虽然简化了，Deepseek 团队设计的这个优势函数更合理。这个算法在很多场景都有应用到，作为入门非常合适。能力原因，感觉很多东西没说清楚，有必要可以阅读一下下面列出的参考文章。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪，可以扫描下方链接👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

九章云极普惠算力

更多推荐

Webpack HMR在aspnetcore-Vue-starter中的应用：提升开发效率的秘诀

aspnetcore-Vue-starter是一个集成了ASP.NET Core后端与Vue.js前端的强大单页应用模板，它通过Webpack热模块替换（HMR）技术，为开发者提供了无缝的开发体验，让前端代码修改无需手动刷新页面即可实时生效。## 🚀 什么是Webpack HMR？Webpack热模块替换（Hot Module Replacement）是一项革命性的开发技术，它允许在应用

九章云极普惠算力

GraphQL Compose性能优化：DataLoader与批量查询最佳实践

GraphQL Compose是Node.js平台上用于构建复杂GraphQL Schema的强大工具包，通过DataLoader实现批量查询和请求合并是提升API性能的关键技术。本文将详细介绍如何在GraphQL Compose项目中应用DataLoader进行性能优化，包含具体实现方法和最佳实践指南。## 为什么需要DataLoader？在GraphQL查询中，典型的N+1查询问题会导

九章云极普惠算力

人脸识别真的需要深度学习吗？ArcFace技术深度解析

在当今数字化时代，人脸识别技术已广泛应用于安防、支付、智能门禁等领域。许多人好奇：人脸识别真的需要深度学习吗？答案是肯定的。传统方法在复杂场景下识别精度有限，而基于深度学习的ArcFace技术通过创新的角度损失函数，实现了高精度的人脸识别。本文将深入解析ArcFace技术的原理、优势及实际应用。## 一、传统方法的局限性传统人脸识别方法如 Eigenfaces、Fisherfaces 等，