一起来聊聊:强化学习是否真的能提升大模型的推理能力?
摘要: 7月12日10点,英伟达研究员刁诗哲将在青稞Talk第62期直播分享其团队提出的ProRL框架,探讨如何通过长期强化学习提升大模型的推理能力。研究提出多样化奖励任务、改进算法组合(GRPO+DAPO)及KL正则化等策略,突破传统RL训练的局限性。刁诗哲在NVIDIA从事大模型与强化学习研究,发表多篇顶会论文。直播将解析ProRL的理论框架与实验效果,详情可访问青稞Talk主页或论文arXi
青稞Talk主页:http://qingkeai.online/
首发:https://mp.weixin.qq.com/s/xrgNtDU2uKMAPQDWyWQpww

如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL
论文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs:https://arxiv.org/abs/2505.24864
权重下载:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
7月12日上午10点,青稞Talk 第62期,英伟达公司研究员刁诗哲,将直播分享《ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界》。
分享嘉宾
刁诗哲,英伟达公司研究员,曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究,并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究方向主要包括大模型的预训练、强化学习提升模型推理能力。在人工智能会议(TMLR、ICLR、ICML、NeurIPS、ACL、EMNLP、WWW、ICCV)上发表论文30余篇。
主题提纲
ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界
1、探讨:强化学习是否真的能提升模型的推理能力?
2、延长强化学习训练框架 ProRL
- 多样化可验证奖励任
- 改进算法组合:GRPO + DAPO
- KL 正则化 + 周期性策略重置
3、解构 ProRL 的推理边界
直播时间
7月12日10:00 - 11:00
更多推荐
所有评论(0)