5分钟自动化程度JeffDean在ICML2019上进行演讲

优采云发布时间: 2021-06-20 04:17

　　翻译：王雨彤

　　校对：王伟丽

　　本文1300字左右，建议阅读5分钟

　　自动化程度

　　Jeff Dean 在 ICML 2019 上发表了关于 AutoML 的演讲，并将自动化分为 4 个级别：

　　在不引入学习步骤的情况下手动构建预测变量；手动选择特征并学习预测。引入自动超参数调优（HPO）工具，如Hyperopt、Optuna、SMAC3、scikit-optimize等；手动构建算法、端到端学习特征和预测。除了HPO，还有其他工具，比如featuretools、tsfresh、boruta等；完全自动化。端到端学习算法、特征和预测。自动算法（模型）选择工具，如Auto-sklearn、TPOT、H2O、auto_ml、MLBox等自动参数优化的两种方法

　　有两种广泛使用的优化方法。一种是贝叶斯优化方法，它根据过去的结果搜索未知参数的范围。典型的算法有TPE、SMAC、GP-EL等

　　另一种方法是在训练过程中停止学习，从而高效地搜索参数，例如 Successive Halving、Hyperband 等。

　　蓝点表示训练继续，红点表示训练停止。

　　AutoML 库

　　我们可以将这些库分为贝叶斯优化算法和提前停止算法。

　　考虑到质量和速度，我们推荐的两个库是 Optuna 和 scikit-optimize。

　　自动化特征工程

　　TPOT 和 Auto-sklear 在使用上仍有局限性。因此，我们将特征工程分为特征生成和特征选择两大类。

　　自动化算法（模型）选择 AutoML 作为 CASH 问题（混合算法选择和超参数优化）。两个重要的问题是没有所有数据集的最优模型；有些模型非常适合超参数。敏感的。我们需要同时解决模型选择和超参数调优的问题。

　　Optuna 也可以解决 CASH 问题，如下图。

　　自动算法选择对比如下：

　　图7显示了不同框架算法下分类数据集问题上的F1值。图 8 显示了不同框架算法下回归数据集的均方误差 (MSE)。箱形图分别代表上限、下四分位数、中位数、下四分位数和下限，灰色圆圈代表异常值。

　　针对不同的任务推荐不同的方法。

　　自动神经架构搜索

　　自动神经架构搜索在学术界也是一个非常热门的话题，但在工业界并没有得到广泛应用。

　　参考

　　以下是日语幻灯片的链接：

　　原文链接：

0

2021-06-20

算法自动采集列表

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

5分钟自动化程度JeffDean在ICML2019上进行演讲

0 个评论

发起人