D4RL：为离线强化学习建立更好的基准

2020-07-13

在过去的十年中，机器学习成功的最大推动力之一是诸如神经网络之类的高容量模型以及诸如ImageNet之类的大型数据集的产生，以产生精确的模型。虽然我们已经看到了深度神经网络已成功应用于机器人，扑克，棋盘游戏和基于团队的视频游戏等领域的强化学习（RL）成功，使这些方法解决实际问题的主要障碍是难以大规模收集在线数据。在线数据收集不仅耗时且昂贵，而且在诸如驾驶或医疗保健等对安全至关重要的领域中也很危险。例如，在控制自动驾驶车辆或在医院治疗患者的同时，让强化学习代理探索，犯错和学习是不合理的。这使我们可以从预先收集的经验中吸取经验，我们很幸运，在许多领域中，已经存在用于自动驾驶汽车，医疗保健或机器人技术等应用的大型数据集。因此，RL算法可以离线学习这些数据集（称为脱机设置）中的数据对塑造我们构建未来机器学习系统的方式具有巨大的潜在影响。

在非策略RL中，该算法从在线探索或行为策略中收集的经验中学习

在离线RL中，我们假设所有经验都是离线收集，固定的，并且无法收集其他数据

对于基准线下深RL的主要方法一直局限于单一的方案：从一些随机或之前训练的政策所产生的数据集，该算法的目标是在性能上比原来的政策，提高[即，1，2，3，4，5，6 ]。这种方法的问题在于，现实世界的数据集不可能由单一的RL训练策略生成，不幸的是，已知该评估方法未涵盖的许多情况对于RL算法都是有问题的。这使得很难知道我们的算法在这些基准任务之外实际使用时的性能如何。

为了开发用于离线RL的有效算法，我们需要易于使用且可以准确衡量此问题进度的广泛使用的基准。在自动驾驶中使用现实世界的数据可以很好地指示进度，但算法的评估却是一个挑战。大多数研究实验室没有资源将其算法部署在实际车辆上，无法测试其方法是否真正有效。为了填补现实但不可行的现实任务与有些缺乏但易于使用的模拟任务之间的差距，我们最近引入了D4RL基准测试（用于深度数据驱动的强化学习的数据集）用于离线RL。D4RL的目标很简单：我们提出旨在解决离线RL问题的维度的任务，这可能会使实际应用变得困难，同时将整个基准保持在模拟域中，从而使世界各地的任何研究人员都可以有效地评估其方法。总体而言，D4RL基准测试涵盖了7个在质量上截然不同的领域的40多项任务，涵盖了机器人操纵，导航和自动驾驶等应用领域。

哪些属性使离线RL变得困难？

在先前的博客文章中，我们讨论了仅在脱机问题上运行常规的策略外RL算法通常是不够的，并且在最坏的情况下可能导致算法发散。实际上，有许多因素会导致RL算法的性能下降，我们将这些因素用于指导D4RL的设计。

狭窄且有偏差的数据分布是现实数据集中的常见属性，可能会为离线RL算法带来问题。通过狭窄的数据分布，我们的意思是数据集在问题的状态-动作空间中缺乏明显的覆盖范围。狭窄的数据分布本身并不意味着任务无法解决-例如，专家演示经常产生狭窄的分布，这会使学习变得困难。难以学习狭窄数据分布的一个直观原因是，它们通常缺少算法学习所需的错误。例如，在医疗保健中，数据集通常偏重于严重病例。我们可能只会看到重病的患者接受药物治疗（其中一小部分生活），轻度病的患者未经治疗就送回家（几乎所有患者都活着）。幼稚的算法可以得知治疗会导致死亡，但这仅仅是因为我们从未见过生病的患者未得到治疗，因此我们将得知治疗的存活率要高得多。

图一.png

从无法代表的策略生成的数据可能来自几种现实情况。例如，人类示威者可以使用RL代理无法观察到的线索，从而导致部分可观察性问题。一些控制器可以利用状态或内存来创建无法用任何马尔可夫策略表示的数据。这些情况可能会导致离线RL算法出现多个问题。首先，已证明无法表示策略类别会在Q学习算法中造成偏差。其次，许多离线RL算法（例如基于重要性加权的算法）中的关键步骤是估计数据集中的动作概率。无法表示生成数据的策略可能会导致其他错误来源。

多任务和无向数据是我们认为会在廉价的大型数据集中流行的属性。想象一下，如果您是RL从业人员，并希望获取大量数据来培训对话代理和个人助理。这样做的最简单方法是简单地记录真实人类之间的对话，或从互联网上获取真实对话。在这种情况下，录制的对话可能与您要完成的特定任务没有任何关系，例如预订航班。但是，对话流的许多部分可能不仅对观察到的对话有用而且适用于其他对象。可视化此效果的一种方法是以下示例。想象一下，如果一个代理试图从点A到达点C，但仅观察从点A到点B以及从点B到点C的路径。

图二.png

次优数据是我们希望在实际数据集中观察到的另一个属性，因为针对我们希望解决的每个任务进行专家演示可能并不总是可行的。在许多领域，例如机器人技术领域，提供专家演示既乏味又耗时。使用RL而不是诸如模仿学习之类的方法的主要优势在于，RL为我们提供了有关如何改进策略的明确信号，这意味着我们可以从更广泛的数据集中学习和改进。

D4RL任务

为了捕获我们上面概述的属性，我们介绍了任务，这些任务跨越了许多质量上不同的领域。除了Maze2D和AntMaze外，所有其他领域最初都是由其他ML研究人员提出的，我们已经对其工作进行了调整，并生成了可用于离线RL设置的数据集。

· 我们从3个难度越来越大的导航域开始。最简单的域是Maze2D域，它尝试将球沿2D平面导航到目标目标位置。有3种可能的迷宫布局（umaze，中等和大型）。AntMaze用“ Ant”四足机器人代替了球，从而提供了更具挑战性的低级运动问题。

导航环境使我们能够大量测试“多任务和无向”数据属性，因为可以将现有的轨迹“缝合”在一起以解决任务。大型AntMaze任务的数据集中的轨迹如下所示，每种轨迹以不同的颜色绘制，目标标有星号。通过学习如何改变现有轨迹的用途，代理可以潜在地解决任务，而不必被迫依靠推断到状态空间的未见区域。

图三.png