在时间关系数据上AutoML:一个新的前沿
优采云 发布时间: 2020-08-12 16:31作者:Flytxt
翻译:张恬钰
校对:李海明
本文1600字,建议阅读8分钟。
本文介绍了AutoML的发展历史及其在时间关系数据上的应用方案。
现实世界中的机器学习系统须要数据科学家和领域专家来构建和维护,而这样的人才却总是供不应求。自动化机器学习(AutoML)由于在建立和维护机器学习工作流中的关键步骤中所显露出的广泛适用性,使得该领域的研究前景一片光明。它减少了人类专家的工作负担,使她们才能专注于复杂、非重复和具有创造性的学习问题。
AutoML的最新进展主要包括从时间关系数据库中手动发觉有意义的表间关系的复杂功能合成(例如,深度特点综合),使用模型手动调整进行概念漂移(例如,AutoGBT),以及深度学习模型的手动设计(例如,神经结构搜索),如图1所示。这些研究进展提升了数据科学家的生产力,从而明显增强了AutoML系统的实用性,并促使非机器学习专家也才能处理现实中不同领域的数据科学问题。
图1 AutoML进化史
在时间关系数据库中使用AutoML
在例如在线广告,推荐系统,自动与顾客交流等机器学习应用中,数据集可以跨越多个具有时间戳的相关表来显示风波的时间安排。而传统方法则须要专家们通过冗长的试错法自动组合表格来获取有意义的特点。用于处理动词关系数据的AutoML考虑了相关关键数组的临时联接,并通过手动发觉重要的表间关系来手动进行特点合成。
在没有域信息的情况下,实现基于动词关系数据的真实世界的AutoML案例包括手动生成有用的动词信息和跨多个子表格有效合并特点,且不会造成数据泄漏。除了这种困难外,还须要手动选择最佳的学习模型和受资源约束的超参数集,以让解决方案足够通用,并且符合时间和内容预算。
有趣的是,今年的KDD杯举办了以AutoML为主题的挑战赛,邀请了全世界AI / ML领域的研究和从业人员为动词关系数据库开发最新的AutoML。
我们的解决方式
我们的工作流程包括预处理,跨关系表的手动特点合成,模型学习和预测这种步骤。预处理包括对于偏移校准的特点变换以及平方和三次特点的提高。它还包括分类特点的频率编码,而特点是使用子表中聚合指标的时间连接手动合成的。多数类的实例将进行下述取样以保持1:3的百分比。渐进式决策树(GBDT)的Catboost实现可用于学习算法,交叉验证则可用于参数调整来决定最佳树的数目。图2概括地描述了我们的工作流程:
图2 我们的模型管线
时态数据聚合
当动词关系数据跨越多个表格时,找出表间的重要关系之后以最佳方法执行数据聚合将有助于特点提取。为了提取正确的特点表示,可对数字特点使用均值、求和等聚合运算,而对分类特点则采用计数、众数等运算。求频度,聚合指标的估算须要在适当的时间窗口上使用交叉验证完成。
特征处理
连接多个数据库的表会形成高度偏移的特点。我们的特点预处理步骤包括偏移校准以及特点变换和提高。特征提高包括添加具有周期性的数字特点的平方和三次方变换以及正则或正切,日期时间特点的变换(例如,月,时和分)来丰富特点空间。还可对分类特点进行频率编码来进一步扩大特点空间。
模型选择
在估算和储存方面,尝试几种线性和非线性模型的成本可能会十分高昂。由于梯度提高决策树在处理分类特点和可扩展性方面的鲁棒性,我们将模型组合限制在CatBoost的实现上。同时使用交叉验证对超参数(例如树的数目)进行调整,以防止过度拟合。
我们的解决方案拓展了现有的AutoML研究项目组合,允许使用涉及不定式关系数据库学习的用例。可以访问Github储存库来查看我们的解决方案。
AutoML趋势
随着行业越来越关注从AI中快速获取价值并降低机器学习模型从原型到生产布署的周期时间,能够增加AI准入门槛并实现AI工作流程自动化的AutoML已成为重要推动力。AutoML社区越来越关注于支持真实案例的使用,包括从结构化和非结构化数据、时态关系数据库以及受概念甩尾影响的数据流中学习。
尽管AutoML最初专注于最佳机器学习管线的手动建立,随着时间的推移,对此类管线手动维护处理它的范围正在扩大,模型自治性进一步降低。AutoML的进步和强悍的估算基础设施的可借助性将促进人机智能的融合,使得人类专家才能更好地将精力集中在学习复杂的,非重复和创造性的问题上,从而获得更优的解决方案。
原文标题:
AutoMLfor Temporal Relational Data: A New Frontier
原文链接: