解决方案:KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

优采云发布时间: 2022-11-21 01:11

　　涂薇薇、陈玉强、杨强、戴文元

　　特征组合是提高模型效果的重要手段，但依靠专家的人工探索和试错，成本太高、太繁琐。为此，第四范式提出了一种新的特征组合方法AutoCross，可以在实际应用中自动实现表格数据的特征组合，提高机器学习算法的预测能力，提高效率和效果。目前，该论文已被数据挖掘领域顶级会议KDD 2019录用。

　　论文简介

　　论文：AutoCross：实际应用中表格数据的自动特征交叉

　　论文链接：

　　本文提出了一种在实际应用中自动实现表数据特征组合的方法AutoCross。这种方法可以捕获特征之间有用的交互并提高机器学习算法的预测能力。该方法利用束搜索策略构建有效的组合特征，其中收录

现有工作未涵盖的高阶（两个以上）特征组合，弥补了以往工作的不足。

　　此外，该研究提出连续小批量梯度下降和多粒度离散化，以进一步提高效率和有效性，同时确保简单性，无需机器学习专业知识或冗长的超参数调整。这些算法旨在减少分布式计算中涉及的计算、传输和存储成本。在基准数据集和真实业务数据集上的实验结果表明，AutoCross 可以显着提高线性模型和深度模型对表数据的学习能力和性能，优于其他基于搜索和深度学习的特征生成方法，进一步证明了其有效性和效率。

　　背景介绍

　　近年来，虽然机器学习在推荐系统、在线广告、金融市场分析等诸多领域取得了诸多成功，但在这些成功的应用中，人类专家参与了机器学习的各个阶段，包括：定义问题、

" target="_blank">采集

数据、特征工程、调整模型超参数、模型评估等。

　　而这些任务的复杂性往往超出了非机器学习专家的能力范围。机器学习技术使用门槛高、专家成本高等问题成为制约人工智能普及的关键因素。因此，AutoML的出现被认为是提高机器学习易用性、通过技术手段减少对人类专家的依赖、让更多人应用AI、获得更大社会和商业效益的最有效途径之一。

　　众所周知，机器学习的性能在很大程度上取决于特征的质量。由于原创

特征很少能产生令人满意的结果，因此通常将特征组合起来以更好地表示数据并提高学习性能。例如在新闻推荐中，如果只有新闻类型和用户ID这两种特征，那么模型只能预测不同新闻类型或不同用户ID对点击率的影响。通过加入新闻类型 x 用户 ID 的组合特征，模型可以学习到用户对不同新闻的偏好。通过加入时间等特征进行高层组合，模型可以预测用户在不同时间对不同新闻的偏好，提高模型的个性化预测能力。

　　特征组合是提高模型效果的重要手段。过去，大多需要建立一个庞大的数据科学家团队，依靠他们的经验去探索和试错。然而，繁琐低效的过程让科学家们非常痛苦，并非所有企业都能承受得起高昂的成本。的代价。

　　第四范式从很早就开始关注并深耕AutoML领域。从解决客户业务核心增长的角度，在反欺诈、个性化推荐等业务场景构建AutoML，赋能企业普通开发者。，取得接近甚至超过数据科学家的业务成果。其中，AutoCross发挥了重要作用。

　　痛点

　　特征组合是对从数据中提取的大量原创

特征进行组合的过程，组合后的特征采用稀疏特征交叉乘法得到。当LR等线性模型只能描述特征之间的线性关系，表达能力有限，而GBDT等非线性模型无法应用于*敏*感*词*离散特征场景时，特征组合可以增加数据的非线性，从而提高性能。

　　但是理论上很难枚举出所有的组合特征，因为可能的组合特征数量是指数级的，而猛烈地添加特征可能会导致学习性能下降，因为它们可能是不相关或冗余的特征，从而增加学习难度。

　　虽然深度神经网络可以自动生成高阶特征，但面对大部分以表格形式呈现的业务数据，最先进的基于深度学习的方法无法有效覆盖所有高阶组合特征，存在诸如可解释性差，计算成本高。在提交本文时，最先进的深度学习方法是 xDeepFM [1]。本文证明了 xDeepFM 可以生成的特征是 AutoCross 可以生成的特征嵌入的子集。

　　AutoCross 的优势

　　实施过程

　　给定训练数据

　　，并将其划分为训练集

　　和验证集

" />

　　. 我们可以用一个特征集S来表示

　　, 并使用学习算法 L 训练模型

　　. 之后，使用验证集和相同的特征集 S 来计算一个需要最大化的度量

　　. 特征组合搜索问题可以定义为搜索最优子特征集的问题：

　　其中 F 是

　　原创

特征集

　　收录

F的所有原创

特征和所有可以基于F生成的组合特征。

　　但是，假设原创

特征数为d，则上述问题的所有可能解数为

　　，搜索空间巨大。为了提高搜索效率，AutoCross 将搜索最优子特征集的问题转化为采用贪心策略逐步构建更优解的问题。首先，AutoCross考虑了一个树状结构的搜索空间

　　（图 3），其中每个节点代表一个子特征集。之后，使用波束搜索策略

　　寻找更好的解决方案。使用这种方法，AutoCross 只需要访问

　　候选解，大大提高了搜索效率。AutoCross 的整体算法如算法 1 所示。

" />

　　算法 1 中的一个关键步骤是评估候选特征集。最直接的方法是用每个候选特征集训练一个模型并评估其性能，但这种方法计算量大且难以在搜索过程中重复执行。为了提高特征集评估的效率，AutoCross提出了field-wise logistic regression和successive mini-batch gradient descent方法。

　　为了提高特征集评估的效率，domain-wise log-odds regression 进行了两次近似。首先，使用特征集在对数概率回归模型上的表现来近似最终会使用这个特征集的模型的表现；第二，经过考虑

　　当收录

一个节点的子节点时，该节点收录

的特征对应的权值不变，只训练该子节点的新特征的权值。

　　图 4 说明了如何在参数服务器架构上部署域明智的对数赔率回归。域对数概率回归与参数服务器的结合可以提高特征集评价的存储效率、传输效率和计算效率。在domain-wise对数概率回归训练后，AutoCross计算训练模型的指标，并使用该方法评估每个候选特征集。

　　AutoCross通过使用连续批量训练梯度下降法进一步提高了特征集评估的效率。该方法借鉴了逐次减半算法[2]，将每个候选特征集视为多臂*敏*感*词*问题中的一个臂。用一个数据块更新一个特征集的权重，相当于拉动对应的手臂一次，它的奖励就是本次训练后的验证集AUC。

　　具体算法见算法2。算法 2 中唯一的参数是数据块的数量 N。N可以根据数据的大小和计算环境自适应确定。当使用连续批量训练梯度下降时，用户不需要像传统的子采样方法那样调整小批量大小和采样率。

　　为了支持数值特征和离散特征的结合，AutoCross在预处理时将数值特征离散化为离散特征。AutoCross提出了一种多粒度的离散化方法，使得用户不需要反复调整离散化粒度。多粒度离散化的思想很简单：将每个数值特征按照不同的粒度划分为多个离散特征。然后使用领域对数概率回归来挑选出最佳的离散特征。多种分区粒度可以由用户指定，也可以根据数据大小和计算环境由AutoCross自适应选择，从而降低用户的使用难度。

　　实验结果

　　论文对十个数据集（五个公共的，五个真实的商业）进行了实验。比较方法包括：

　　效果对比：如下表3所示，AC+LR和AC+W&D在大部分数据集上排在前两位。这说明AutoCross生成的特征不仅可以增强LR模型，还可以用来提升深度学习模型的性能，AC+LR和AC+W&D的效果都优于xDeepFM。如前所述，xDeepFM 生成的特征不能完全收录

AutoCross 生成的特征。这些结果证明了显式生成高阶组合特征的性能优势。

　　高阶特征的作用：见表5和图6，可以看出高阶组合特征可以有效提升模型性能。

　　耗时：见表6和图7（主要用于展示）。

　　Inference Latency：见表7，可以得出AC+LR的推理速度比AC+W&D、Deep、xDeepFM快几个数量级。这表明 AutoCross 不仅可以提高模型性能，还可以确保低推理延迟。

　　参考

　　[1] J. Lian、X. Zhou、F. Zhang、Z. Chen、X. Xie 和 G. Sun。2018. xDeepFM：结合推荐系统的显式和隐式特征交互。在知识发现与数据挖掘国际会议上。

　　[2] K. Jamieson 和 A. Talwalkar。2016. 非随机最佳手臂识别和超参数优化。在人工智能和统计学中。240–248。

　　[3] O. Chapelle、E. Manavoglu 和 R. Rosales。2015. 展示广告的简单且可扩展的响应预测。ACM 智能系统和技术交易 (TIST) 5, 4 (2015), 61。

　　解决方案:基于tf-idf关键词提取极简方法，并自动生成专业「词云图和语义网络图」

　　基于tf-idf关键词提取极简方法

　　在学术论文的研究中，常用于基于tf-idf算法优化关键词关联规则，寻找与文本分析相关度更高的关键词。

　　tf-idf关键词extracts 自动提取关键词微词云分词

　　很多有才华的人自学python抽取关键词，但是所花费的时间和精力是难以估计的。

　　所以，如果你不想学习python，又想快速简单地“基于tf-idf”自动提取关键词，又想生成关键词云图和语义网络图？

　　关键词云图社交网络关系图语义网络关系图共词分析

　　教程你找到了，我一口气发给你！不到3分钟，放心上手，保质保量专业！

　　其实一个小的文本分析工具就可以解决以上需求，只是知道的人太少了！

　　我们可以在浏览器中搜索“微词云分词”，点击“词频统计分析软件”网页

　　微词云分词中文分词文本分析关联分析

　　这里有几个软件，情感分析，英文分词，新词发现，不过这次我们要用到这个中文分词软件

　　微词云分词中文分词文本分析关联分析

　　简单来说，只要你上传文本数据，这个工具就会基于tf-idf自动为你提取关键词，同时它还可以生成词云图和语义网络图。该工具非常专业，让您放心。

　　好吧，和我一起工作吧~

　　为了让大家能够学习，保证分析结果的准确性，我会详细讲解操作过程，请耐心阅读

　　第一步：上传文本数据

　　我们点击右上方的导入“中文内容”按钮，这里支持txt和Excel两种格式，也可以直接将内容复制到输入框中。

　　第二步：数据配置

　　上传数据后，我们可以查看top功能配置，可以优化数据分析结果。

　　字长：如果字长设置为2，则过滤单字词，一般默认为2。

　　自定义词典：可以输入自己关心的词，或者系统无法区分的生词，可以增加数据的价值（如果没有生词，可以试试旁边提示的生词发现工具）

　　指定词性：分析时会过滤掉未勾选的词性，系统默认勾选常用词性。如果要确保数据完整性，可以检查所有词性。

　　第三步：进入报表分析页面

" />

　　顶部参数配置完成后，点击右上角“下一步”进入关键词提取、关系图生成报表页面

　　如果系统提示是否去重，为了保持数据的完整性，可以选择不去重。

　　重复数据删除只是清理数据的一种方式。

　　第 4 步：基于 IF-IDF 筛选关键词

　　我们向下滑动报告页面，我们会在特征词列表中看到TF-IDF这一栏

　　我们可以点击reverse order和forward order来过滤关键词，这个结果就是我上面提到的根据TF-IDF自动提取的关键词的结果数据。

　　文本分析报告生成 tf-idf关键词提取

　　目前还可以下载特征词表，进一步分析，根据TF-IDF层级过滤词，制作关键词云图

　　下载的位置，最上面的基本信息位置

　　tf-idf关键词提取特征词汇数据下载步骤5：根据IF-IDF过滤关键词，制作词云图

　　我们打开excel表格，点击TF-IDF表头位置，按照降序过滤（即从高到低排序）

　　根据tf-idf高低筛选词关键词筛选

　　我们将很容易得到具有更大相关性的关键词。我们复制前100个关键词和次数（单词出现的次数）得到一个词云图

　　单击顶部的其他产品并选择词云设计

　　关键词生成词云设计微词云设计词云图生成

　　切换到词云生成页面，我们先点击词导入，选择excel导入，因为我们需要导入的是关键词和词频

　　其中“模板2”的格式符合我们目前的需求，所以点击下载这个模板，将刚才的两列数据复制到这个模板2中。

　　直接点击上传刚才保存的模板2表

　　最后点击【确定并使用】

　　点击上方【载入词云】可以看到关键词云图效果

　　关键词生成词云设计微词云设计词云图生成

　　您可以通过调整字体、颜色、角度等配置来美化词云图。

" />

　　第六步：生成语义网络关系图

　　这个图表在报告的底部，我们滑动到“网络关系图”的位置

　　网络关系图语义网络关系图共现分析共词分析共现值

　　主要告诉大家两个功能

　　第一个是：如何重新选择显示的网络图的话

　　二是：如何调整网络关系图的效果，让文字之间的关系更直观！

　　先说第一个问题：选词

　　点击右上角“重新选词”功能按钮

　　您会看到语音和搜索框

　　所以可以根据语音和自主搜索方式添加关键词

　　那么如何删除不想显示的关键词呢？在显示的关键词列表中，用鼠标点击单词删除点击的单词

　　选中单词后，点击右侧的“计算关系”按钮

　　那么第二个问题：优化效果

　　点击右上角的“Change Layout/Color Color”功能按钮

　　因为这个位置的配置功能超级简单，点击选择就可以看到效果，所以我只选择影响关系效果的重要配置进行说明

　　1）权重函数参数：控制网络图中节点圈的大小，权重值越小，节点大小越大

　　关系说明：节点圈的大小由词频决定。词频越大，节点圈越大

　　网络关系图语义网络关系图共现分析共词分析共现值

　　2）最大线宽函数参数：为使关系值更直观，可适当增大线宽值

　　关系说明：线宽的粗细受同现值的影响，同现值越大，线宽越粗。

　　网络关系图语义网络关系图共现分析共词分析共现值

　　其他的字体大小、字体样式、弯曲度、颜色等配置参数可以自己点击尝试，也可以查看顶部的视频教程进行学习。

　　效果生成后，我们就可以下载满意的语义网络关系图了，操作起来确实不难。

　　向下滑动，还有一个彩色的共词矩阵表。分析报告中显示共词矩阵表，说明关键词之间的关系更有说服力，大大提高您的分析专业性。

　　好了，说了这么多，学会记得打卡哦~

0

2022-11-21

采集自动组合

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解决方案:KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

0 个评论

发起人