搜索引擎优化论文(新加坡南洋理工大学：深度强化学习数据处理与分析的研究方向)

优采云发布时间: 2022-04-16 08:35

　　【新智慧介绍】数据分析是现在必备的技能之一。传统上，他们大多使用静态算法或规则进行数据分析，但在经常面临复*敏*感*词*互环境的实际场景中，如何学习更好的策略是一个非常现实的问题。幸运的是，强化学习可以成为解决此类问题的有效方法。新加坡南洋理工大学的学者在 TKDE 发表了一篇关于“深度强化学习的数据处理和分析”的评论论文，对最近的工作进行了全面回顾，重点是使用 DRL 改进数据处理和分析。

　　数据处理和分析是基本的和普遍的。算法在数据处理和分析中起着至关重要的作用，许多算法设计结合了人类知识和经验的启发式和一般规则，以提高其有效性。

　　近年来，强化学习，尤其是深度强化学习（DRL），由于与静态设计的算法相比，它可以在复杂的交互环境中学习到更好的策略，因此在许多领域得到了越来越多的探索和利用。在这一趋势的推动下，我们对最近专注于利用 DRL 改进数据处理和分析的工作进行了全面回顾。

　　首先，我们介绍 DRL 中的关键概念、理论和方法。接下来，我们将讨论 DRL 在数据库系统上的部署，以促进数据组织、调度、调优和索引等各个方面的数据处理和分析。

　　然后，我们研究 DRL 在数据处理和分析中的应用，从数据准备和自然语言处理到医疗保健、金融科技等。

　　最后，我们讨论了在数据处理和分析中使用 DRL 的重要挑战和未来研究方向。

　　论文链接：

　　在大数据时代，数据处理和分析对于许多正在进行数字化旅程以改善和转变其业务和运营的组织来说是基础、无处不在和至关重要的。数据分析往往需要其他关键操作，如数据采集、数据清洗、数据集成、建模等，才能提取洞察。

　　大数据可以在医疗保健和零售等许多行业释放巨大的价值创造。然而，数据的复杂性（例如，大容量、高速度和高多样性）给数据分析带来了许多挑战，使得难以获得有意义的见解。为迎接这一挑战并促进高效、有效的数据处理和分析，研究人员和从业者设计了大量的算法和技术，也开发了大量的学习系统，例如 Spark MLlib 和 Rafiki。

　　为了支持快速的数据处理和准确的数据分析，大量算法依赖于基于人类知识和经验开发的规则。例如，最短作业优先是一种调度算法，它选择执行时间最短的作业进行下一次执行。但与没有充分利用工作负载特征的基于学习的调度算法相比，它的性能很差。另一个例子是计算机网络中的数据包分类，它将数据包与一组规则中的一个进行匹配。一种解决方案是使用手动调整的启发式分类来构建决策树。具体来说，启发式是为一组特定的规则设计的，因此可能不适用于具有不同特征的其他工作负载。

　　我们观察到现有算法的三个局限性：

　　首先，算法是次优的。规则可能会忽略或未充分利用诸如数据分布之类的有用信息。其次，算法缺乏适应能力。为特定工作负载设计的算法在不同的工作负载中表现不佳。第三，算法设计是一个耗时的过程。开发人员必须花费大量时间尝试许多规则才能找到一个凭经验起作用的规则。

　　基于学习的算法也用于数据处理和分析。有两种经常使用的学习方法：监督学习和强化学习。它们通过直接优化性能目标来实现更好的性能。监督学习通常需要一组丰富的高质量带注释的训练数据，这些数据很难获取且具有挑战性。例如，配置调整对于优化数据库管理系统 (DBMS) 的整体性能很重要。在离散和连续的空间中，可能有数百个相互关联的调音旋钮。此外，不同的数据库实例、查询工作负载和硬件特性使数据采集不可用，尤其是在云环境中。

　　与监督学习相比，强化学习具有更好的性能，因为它采用试错搜索，并且需要更少的训练样本来找到良好的云数据库配置。

　　另一个具体的例子是查询处理中的查询优化。数据库系统优化器的任务是为查询找到最佳执行计划以降低查询成本。传统的优化器通常会列举许多候选计划并使用成本模型来寻找成本最低的计划。优化过程可能缓慢且不准确。

　　在不依赖不准确的成本模型的情况下，深度强化学习 (DRL) 方法通过与数据库交互来改进执行计划（例如，更改表连接顺序）。

　　当查询被发送到代理（即 DRL 优化器）时，代理通过描述基本信息（例如所访问的关系和表）来生成状态向量。代理将状态作为输入，并使用神经网络生成动作集的概率分布。动作集可以收录所有可能的连接操作作为潜在动作。

　　每个操作代表一对表上的部分连接计划，一旦执行操作，状态将被更新。采取可能的行动后，会生成一个完整的计划，然后由 DBMS 执行以获得奖励。

　　在这个查询优化问题中，可以根据实际延迟计算奖励。在使用奖励信号进行训练期间，代理可以改进策略，从而更好地排序具有更高奖励（即更少延迟）的连接。

　　查询优化的 DRL 工作流程

　　强化学习 (RL) 侧重于学习在环境中智能地行动。RL 算法通过基于探索和开发的环境反馈来改进自己。在过去的几十年里，RL 在理论和技术上都取得了巨大的进步。

　　值得注意的是，DRL 结合了深度学习 (DL) 技术来处理复杂的非结构化数据，旨在从历史数据中学习和自我探索，以解决众所周知的困难和*敏*感*词*问题（例如 AlphaGo）。

　　近年来，来自不同社区的研究人员提出了 DRL 解决方案来解决数据处理和分析中的问题。我们从系统和应用程序的角度使用 DRL 对现有作品进行分类。

　　从系统的角度来看，我们专注于基础研究主题，从一般的（例如调度）到特定于系统的（例如数据库的查询优化）。我们还应该强调它是如何被表述为马尔可夫决策过程的，并讨论与传统方法相比如何更有效地解决 DRL 问题。由于实际系统中的工作负载执行和数据采集时间都比较长，因此采用采样、模拟等技术来提高DRL训练的效率。

　　从应用的角度，我们将涵盖数据处理和数据分析中的各种关键应用，以全面了解 DRL 的可用性和适应性。许多领域都通过采用 DRL 进行了转换，这有助于学习有关应用程序的特定领域知识。

　　在这篇综述中，我们旨在对使用 DRL 解决数据系统、数据处理和分析问题的最新进展进行广泛和系统的回顾。

　　RL 技术分类

　　参考：

　　[1] J. Manyika、M. Chui、B. Brown、J. Bughin、R. Dobbs、C. Roxburgh、A. Hung Byers 等人，大数据：创新、竞争和生产力的下一个前沿。麦肯锡全球研究院，2011.

　　[2] X. Meng, J. Bradley, B. Yavuz, E. Sparks, S. Venkataraman, D. Liu, J. Freeman, D. Tsai, M. Amde, S. Owen 等人，“Mllib：机器在 apache spark 中学习，”机器学习研究杂志，第一卷。17，没有。1, pp. 1235–1241, 2016.

　　[3] W. Wang、J. Gao、M. Zhang、S. Wang、G. Chen、TK Ng、BC Ooi、J. Shao 和 M. Reyad，“Rafiki：作为分析服务系统的机器学习”， VLDB，卷。12，没有。2，第 128-140、201 页8.

0

2022-04-16

搜索引擎优化论文

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化论文(新加坡南洋理工大学：深度强化学习数据处理与分析的研究方向)

0 个评论

发起人