GRPO强化学习训练翻译模型的奖励函数设计

本文主要看一下翻译模型的GRPO奖励函数设计。

余俊晖

555人浏览 · 2025-10-17 17:39:02

余俊晖 · 2025-10-17 17:39:02 发布

训练方式概览

本文主要看一下翻译模型的GRPO奖励函数设计。

奖励函数设计

格式奖励

模型生成格式： “< think > [thought]< /think> [translation]”，其中 “< think>” 和“< /think>” 是两个特殊 token，用于表示思考内容的边界。“[thought]” 和 “[translation]” 分别表示思考内容和翻译内容。

使用deepseek判断翻译结果是否仅包含翻译内容判断prmopt如下

“{src}”和“{trans}”分别表示源句和翻译结果

同时满足（a）生成格式正确（由正则表达式判断），且（b）翻译结果不包含任何解释（由 DeepSeek-v3 判断），则认为格式正确；否则视为不正确。

思维奖励

思维奖励的目标是鼓励模型生成针对原文的具体、详细推理过程，通过 DeepSeek-v3 按 3 分制评分。

该阶段提示词，包含3分之评分标准

作用：避免模型“跳过推理直接翻译”，确保推理过程对翻译质量有实际指导意义（尤其针对文学翻译中的隐喻、文化背景）。

该阶段提示词

翻译奖励

该阶段提示词，包含了评分标准

翻译奖励的目标是评估译文的流畅性、语义准确性、文学性（针对文学翻译场景），通过DeepSeek-v3按 100分制 评分，评分标准细化为5个梯度，每个梯度对应明确的质量要求。

综合奖励

综合奖励将上述三个模块整合，格式正确是前提，在此基础上平衡推理质量与翻译质量。计算公式为：

参考文献：DeepTrans: Deep Reasoning Translation via Reinforcement Learning,https://arxiv.org/pdf/2504.10187v2

九章云极普惠算力

更多推荐

Qwen3-Embedding-4B入门必看：Embedding模型微调vs. RAG vs. 端到端微调对比

本文介绍了在星图GPU平台上自动化部署Qwen3-Embedding-4B（Semantic Search）镜像的方法，并探讨了其核心应用场景。该平台简化了部署流程，用户可快速搭建基于此嵌入模型的语义搜索服务，典型应用于企业知识库、客服系统等场景，实现精准的意图理解和信息检索。

九章云极普惠算力

GTE-text-vector-large实战：企业内部知识库问答系统+权限感知答案过滤

本文介绍了如何在星图GPU平台上自动化部署GTE文本向量-中文-通用领域-large应用镜像，快速构建企业内部知识库问答系统。该系统能基于语义理解实现精准问答，并通过权限感知机制过滤敏感信息，典型应用于企业人力资源政策查询、技术文档检索等场景，保障数据安全的同时提升信息获取效率。

九章云极普惠算力

HP-Socket版本策略调整影响评估：用户、团队与业务

HP-Socket作为一款**高性能TCP/UDP/HTTP通信组件**，其版本策略的调整直接影响着成千上万的开发者用户、维护团队以及依赖该框架的业务系统。本文将从技术演进、兼容性维护、性能优化三个维度，深入分析HP-Socket版本策略调整带来的全方位影响，帮助开发者和技术决策者做出明智的版本升级决策。😊## 🔧 技术架构演进与版本策略HP-Socket采用**分层架构+事件驱动**