【牛津博士论文】逆强化学习中的部分可识别性与模型设定错误

我们还提供了必要和充分条件，精确描述了观察到的示范策略与每种标准行为模型可能的差异，直到该模型导致关于奖励函数R的错误推断。此外，我们引入了一个统一的框架，用于推理IRL中的部分可识别性和模型设定错误，并提供了几种形式化工具，能够轻松推导新IRL模型的部分可识别性和模型设定错误的鲁棒性，或分析其他类型的奖励学习算法。数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大

数据派THU

93人浏览 · 2025-06-14 17:02:19

数据派THU · 2025-06-14 17:02:19 发布

来源：专知
本文约1000字，建议阅读5分钟
在本文中，我们对IRL中的部分可识别性和模型设定错误进行了全面的数学分析。

逆强化学习（IRL）的目标是从一个策略π推断出奖励函数R。这个问题很难解决，原因有几个。首先，通常有多个奖励函数与给定策略兼容，这意味着奖励函数仅部分可识别，并且IRL本身包含一定程度的模糊性。其次，为了从π推断出R，IRL算法必须有一个行为模型，描述策略π与奖励函数R之间的关系。然而，人类偏好与人类行为之间的真实关系非常复杂，实际上几乎不可能通过简单的模型完全捕捉。这意味着在实践中，行为模型会出现设定错误，从而引发担忧——如果将其应用于真实世界数据，可能会导致不可靠的推断。在本文中，我们对IRL中的部分可识别性和模型设定错误进行了全面的数学分析。具体而言，我们全面刻画并量化了在当前IRL文献中最常见的所有行为模型下奖励函数的模糊性。我们还提供了必要和充分条件，精确描述了观察到的示范策略与每种标准行为模型可能的差异，直到该模型导致关于奖励函数R的错误推断。此外，我们引入了一个统一的框架，用于推理IRL中的部分可识别性和模型设定错误，并提供了几种形式化工具，能够轻松推导新IRL模型的部分可识别性和模型设定错误的鲁棒性，或分析其他类型的奖励学习算法。