5分钟自动化程度JeffDean在ICML2019上进行演讲

优采云 发布时间: 2021-06-20 04:17

  5分钟自动化程度JeffDean在ICML2019上进行演讲

  翻译:王雨彤

  校对:王伟丽

  本文1300字左右,建议阅读5分钟

  自动化程度

  Jeff Dean 在 ICML 2019 上发表了关于 AutoML 的演讲,并将自动化分为 4 个级别:

  在不引入学习步骤的情况下手动构建预测变量;手动选择特征并学习预测。引入自动超参数调优(HPO)工具,如Hyperopt、Optuna、SMAC3、scikit-optimize等;手动构建算法、端到端学习特征和预测。除了HPO,还有其他工具,比如featuretools、tsfresh、boruta等;完全自动化。端到端学习算法、特征和预测。自动算法(模型)选择工具,如Auto-sklearn、TPOT、H2O、auto_ml、MLBox等自动参数优化的两种方法

  有两种广泛使用的优化方法。一种是贝叶斯优化方法,它根据过去的结果搜索未知参数的范围。典型的算法有TPE、SMAC、GP-EL等

  另一种方法是在训练过程中停止学习,从而高效地搜索参数,例如 Successive Halving、Hyperband 等。

  蓝点表示训练继续,红点表示训练停止。

  AutoML 库

  我们可以将这些库分为贝叶斯优化算法和提前停止算法。

  考虑到质量和速度,我们推荐的两个库是 Optuna 和 scikit-optimize。

  自动化特征工程

  TPOT 和 Auto-sklear 在使用上仍有局限性。因此,我们将特征工程分为特征生成和特征选择两大类。

  自动化算法(模型)选择 AutoML 作为 CASH 问题(混合算法选择和超参数优化)。两个重要的问题是没有所有数据集的最优模型;有些模型非常适合超参数。敏感的。我们需要同时解决模型选择和超参数调优的问题。

  Optuna 也可以解决 CASH 问题,如下图。

  自动算法选择对比如下:

  图7显示了不同框架算法下分类数据集问题上的F1值。图 8 显示了不同框架算法下回归数据集的均方误差 (MSE)。箱形图分别代表上限、下四分位数、中位数、下四分位数和下限,灰色圆圈代表异常值。

  针对不同的任务推荐不同的方法。

  自动神经架构搜索

  自动神经架构搜索在学术界也是一个非常热门的话题,但在工业界并没有得到广泛应用。

  参考

  以下是日语幻灯片的链接:

  原文链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线