搜索引擎优化pdf(强化学习(RL)与深度学习的结合带来的成果)

优采云 发布时间: 2022-02-14 07:19

  搜索引擎优化pdf(强化学习(RL)与深度学习的结合带来的成果)

  来自牛津大学、弗莱堡大学、谷歌研究院等机构的十余位研究人员撰写了评论 AutoRL 的文章。

  强化学习 (RL) 和深度学习的结合带来了一系列令人印象深刻的结果,许多人认为(深度)强化学习提供了通向通用代理的途径。然而,RL 代理的成功通常对训练期间的设计选择高度敏感,并且可能需要繁琐且容易出错的手动调整。这使得将 RL 应用于新问题具有挑战性,同时也限制了 RL 的全部潜力。

  在机器学习的许多其他领域,AutoML 已经表明可以自动化此类设计选择,并且在应用于 RL 时也产生了有希望的初步结果。然而,自动强化学习(AutoRL)不仅涉及 AutoML 的标准应用,还涉及 RL 特有的额外挑战,这导致研究人员自然地产生了一些不同的方法。

  AutoRL 已成为 RL 研究的一个重要领域,为从 RNA 设计到围棋等游戏的应用提供了希望。由于 RL 中考虑的方法和设置的多样性,许多研究是在不同的子领域进行的。来自牛津大学、弗莱堡大学、Google Research 等的十几位研究人员撰写了统一 A​​utoRL 领域并提供通用分类法的尝试。该研究详细讨论了每个领域,并提出了未来研究人员可能感兴趣的领域。问题。

  

  论文地址:

  AutoRL 方法

  强化学习理论上可以用于任何任务,包括世界模型未知的环境。然而,这种普遍性是有代价的,其最大的缺点是代理通常无法获得环境的真实模型。如果代理想要在场景中使用模型,它必须完全从经验中学习,这带来了许多挑战。智能体探索的模型与真实模型之间存在误差,这种误差会导致智能体在学习模型中表现良好,但在真实环境中表现不佳(甚至表现不佳)。

  本研究调查的目的是介绍 AutoRL 领域,它可以解决各种挑战:一方面,RL 算法的脆弱性阻碍了它们在新领域的应用,特别是那些从业者缺乏大量资源来搜索最佳配置的领域。在许多情况下,对于完全不可见的问题,手动查找一组中等强度的超参数可能会非常昂贵。AutoRL 已被证明有助于解决这方面的重要问题,例如设计 RNA。另一方面,对于那些受益于更多计算的人来说,显然增加算法的灵活性可以提高性能。著名的 AlphaGo 代理已经证明了这一点,该代理通过使用贝叶斯优化得到了显着改进。

  早在 1980 年代,AutoRL 算法就被证明是有效的。然而,最近 AutoML 的流行导致了更先进技术的新生应用。同时,最近元学习的流行导致了一系列旨在自动化 RL 过程的工作。

  该论文试图提供这些方法的分类,他们希望通过思想的交叉融合开辟一系列未来的工作,同时也向 RL 研究人员介绍一套技术来提高他们的算法的性能。该研究认为,AutoRL 在增加强化学习的潜在影响方面发挥着重要作用,无论是在开放研究中还是在实际应用中。

  此外,这项研究希望将对 AutoML 感兴趣的研究人员吸引到 AutoRL 社区,特别是 RL 具有非平稳性,因为代理正在训练的数据是当前策略的函数。此外,研究还介绍了 AutoRL 针对特定 RL 问题的环境和算法设计。

  

  该研究调查了 AutoRL 社区、技术等。一般来说,大多数 AutoRL 方法可以通过组合内循环和外循环来组织。每个循环都可以通过黑盒或基于梯度的方法进行优化,但是外循环的梯度和内循环的黑盒不能合并,因为内循环的黑盒设置会使梯度不可用,如表2所示图 2:

  

  

  如下表 3 所示,该研究总结了 AutoRL 方法的大类分类,方法分类将在第 4 章的每个小节中体现

  

  随机/网格搜索驱动方法

  该研究首先讨论最简单的方法:随机搜索和网格搜索。随机搜索从搜索空间中随机采样超参数配置,而网格搜索将搜索空间划分为固定的点网格并对其进行评估。由于它们的简单性,随机搜索和网格搜索可用于选择超参数列表、评估超参数并选择最佳配置。事实上,网格搜索仍然是 RL 中最常用的方法,并且网格搜索在绝大多数情况下会调整超参数,但不应被认为是最有效的方法。但是这些经典方法没有考虑到优化问题的潜在非平稳性,如下图 3 所示:

  

  提高随机搜索性能的一种常见方法是使用 Hyperband,这是一种用于超参数优化的配置评估。它专注于通过自适应资源分配和提前停止来加速随机搜索。特别是,Hyperband 使用“连续减半”将预算分配给一组超参数配置。张等人。使用随机搜索和 Hyperband 来调整他们的 MBRL 算法的超参数。

  贝叶斯优化

  贝叶斯优化(BO)是迄今为止最流行的方法之一,主要用于工业应用和各种科学实验。对于 RL 应用程序,BO 最突出的用途之一是调整 AlphaGo 超参数,其中包括蒙特卡洛树搜索 (MCTS) 超参数和时间控制设置。这导致 AlphaGo 在自我对弈中的胜率从 50% 提高到 66.5%。图 4 显示了 RL 案例中贝叶斯优化的一般概念:

  

  进化算法

  进化算法广泛应用于各种优化任务,其机理如图5所示:

  

  进化算法通常用于搜索 RL 算法的超参数。埃里克森等人。使用真正的遗传算法(GA)通过群体中每个个体的基因编码RL算法的超参数来调整SARSA超参数,并将该方法应用于控制移动机器人。Cardenoso Fernandez 和 Caarls 使用 GA 在简单的设置中调整 RL 算法的超参数,并通过结合自动重启策略来消除局部最小值,从而获得了良好的性能。阿什拉夫等人。使用受座头鲸狩猎策略启发的鲸鱼优化算法 (WOA) 来优化 DDPG 超参数以提高各种 RL 任务的性能。

  用于在线调整的元梯度

  Metagradients 提供了一种替代方法来处理 RL 超参数的非平稳性。元梯度公式的灵感来自元学习方法,例如 MAML,它使用梯度来优化内部和外部循环。特别是,元梯度方法将其(可微分)超参数的子集指定为元参数 η。在内部循环中,代理使用固定的 η 进行优化,采用梯度步骤来最小化(通常是固定的)损失函数。在外部循环中,通过采取梯度步骤来优化 η,以最小化外部损失函数。内部和外部损失函数的每个特定选择都定义了一个新的元梯度算法。

  黑盒在线调优

  PBT 和元梯度的优势在于能够动态调整超参数,但这并不是唯一的方法。事实上,研究人员已经考虑了各种其他方法,从黑盒方法到在线学习启发式方法。本节重点介绍在超参数不可微的设置中动态适应的单代理方法。

  自 1990 年代以来,自适应选择超参数的方法一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自适应加权方案的三种替代方案,Kearns 和 Singh (2000) 推导出了时间差分算法误差的上限,并使用了这些界限导出 λ 时间线。Downey 和 Sanner(2010) 使用贝叶斯模型平均来为 TD 方法选择 λ 自举超参数。最近,White(2016) 提出了 λ-greedy 来拟合 λ 作为状态) ,并实现了一个接近最优的偏差-方差权衡,Paul 等人(2019) 提出了 HOOF,它使用随机搜索和非策略数据来周期性地为策略梯度算法参数选择新的管理程序。

  环境设计

  环境设计是强化学习代理自动学习的重要组成部分。从课程学习到综合环境学习和生成,再到课程学习与环境生成相结合,这里的目标是通过环境设计来加速机器学习代理的学习。如图7所示:

  

  混合方法

  不可避免地,一些方法不属于单一类别。事实上,许多方法都试图利用不同的方法,这可以称为混合方法。在本研究中,这些混合方法被定义为使用表 3 中不止一类技术的方法,例如 BOHB、DEHB 等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线