5分钟自动化程度JeffDean在ICML2019上进行演讲
优采云 发布时间: 2021-06-20 04:175分钟自动化程度JeffDean在ICML2019上进行演讲
翻译:王雨彤
校对:王伟丽
本文1300字左右,建议阅读5分钟
自动化程度
Jeff Dean 在 ICML 2019 上发表了关于 AutoML 的演讲,并将自动化分为 4 个级别:
在不引入学习步骤的情况下手动构建预测变量;手动选择特征并学习预测。引入自动超参数调优(HPO)工具,如Hyperopt、Optuna、SMAC3、scikit-optimize等;手动构建算法、端到端学习特征和预测。除了HPO,还有其他工具,比如featuretools、tsfresh、boruta等;完全自动化。端到端学习算法、特征和预测。自动算法(模型)选择工具,如Auto-sklearn、TPOT、H2O、auto_ml、MLBox等自动参数优化的两种方法
有两种广泛使用的优化方法。一种是贝叶斯优化方法,它根据过去的结果搜索未知参数的范围。典型的算法有TPE、SMAC、GP-EL等
另一种方法是在训练过程中停止学习,从而高效地搜索参数,例如 Successive Halving、Hyperband 等。
蓝点表示训练继续,红点表示训练停止。
AutoML 库
我们可以将这些库分为贝叶斯优化算法和提前停止算法。
考虑到质量和速度,我们推荐的两个库是 Optuna 和 scikit-optimize。
自动化特征工程
TPOT 和 Auto-sklear 在使用上仍有局限性。因此,我们将特征工程分为特征生成和特征选择两大类。
自动化算法(模型)选择 AutoML 作为 CASH 问题(混合算法选择和超参数优化)。两个重要的问题是没有所有数据集的最优模型;有些模型非常适合超参数。敏感的。我们需要同时解决模型选择和超参数调优的问题。
Optuna 也可以解决 CASH 问题,如下图。
自动算法选择对比如下:
图7显示了不同框架算法下分类数据集问题上的F1值。图 8 显示了不同框架算法下回归数据集的均方误差 (MSE)。箱形图分别代表上限、下四分位数、中位数、下四分位数和下限,灰色圆圈代表异常值。
针对不同的任务推荐不同的方法。
自动神经架构搜索
自动神经架构搜索在学术界也是一个非常热门的话题,但在工业界并没有得到广泛应用。
参考
以下是日语幻灯片的链接:
原文链接: