免规则采集器列表算法(数据挖掘领域的十大经典算法:C4.5、K-Means)

优采云发布时间: 2021-09-03 22:25

　　2006年12月国际权威学术组织评选出数据挖掘领域十大经典算法：C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、NaiveBayes、AndCART

　　不仅是十个被选中的算法，十八个被选中的算法实际上都参与了评选。事实上，可以说是一种经典的算法，在数据挖掘领域产生了很大的影响。

　　1.C4.5.

　　C4.5算法是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。 C4.5算法继承了ID3算法的优点，对ID3算法进行了以下几个方面的改进

　　1)使用信息增益率来选择属性，克服了选择信息增益时选择值较多的属性的缺点。

　　2)树结构过程中的Pruning

　　3)可以完成对连续属性的离散处理

　　4) 可以处理不完整的数据。

　　C4.5 算法具有分类规则简单易懂、准确率高等优点。缺点是在构建树的过程中，需要对数据集进行多次扫描排序，导致算法效率低下。

　　2.Thek-meansalgorithm 是 K-Means 算法。

　　K-means 算法是一种聚类算法，它根据属性 K 将 N 个对象分成 K 个段。

　　3.Supportvectormachines。

　　Support Vector Machine，英文是SupportVectorMachine，简称SV机（论文中一般简称为SVM）。这是一种监督学习的方法，广泛用于统计分类和回归分析。支持向量机将向量映射到更高维的空间，并在该空间建立最大的分离超平面。在分隔数据的超平面的两侧建立两个相互平行的超平面。分离超平面最大化两个平行超平面之间的距离。假设平行超平面之间的距离或间隙越大，分类器的总误差越小。一个很好的指南是 C.J.CBurges 的模型识别支持向量机指南。 vanderWalt 和 Barnard 支持向量机与其他分类器进行了比较。

　　4.TheApriorialgorithm。

　　Apriori 算法是挖掘布尔关联规则频繁项集影响最大的算法。它的核心是一个基于两个阶段频繁思考的渐进算法。相关规则分为单维、单层和布尔相关规则。这里，所有支持度大于最小支持度的项目称为频繁项目，简称频繁项目。

　　5.最大期望（EM）算法。

　　在统计计算中，最大期望（EM，Expectation-Maximization）算法是在概率模型中，率模型依赖于不可观察的隐藏变量。最大的期望通常用于机器学习和计算机视觉中的数据采集领域。

　　6.PageRank。

　　Mark 是 Google 算法的重要组成部分。美国专利于2001年9月获得授权，专利权人是谷歌创始人之一拉里佩奇。所以PageRank中的page并不是指网页，而是指Page，也就是说这种分类方法是以Page命名的。

　　PageRank 根据网站的外部和内部链接的数量和质量来衡量网站的价值。 PageRank 背后的概念是每个页面的链接都是对页面的投票。链接越多，其他网站的投票就越多。这就是所谓的链接流行度——衡量有多少人愿意将他们的网站与您的网站联系起来的指标。 PageRank的概念是学术论文被引用的频率，也就是说，被他人引用的次数越多，一般对论文的判断就越权威。

　　7.AdaBoost。

　　Adaboost 是一种迭代算法。它的核心思想是对同一个训练集训练不同的分类器（弱分类器），然后将这些弱分类器整合起来，形成一个更强的最终分类器（强分类器）。算法本身是通过改变数据分布来实现的。每个样本的正确值是根据每个训练集中每个样本的分类是否正确，以及上次整体分类的准确率来确定的。将修改权重的新数据集送到底层分类器进行训练，最后将每次训练得到的分类器最后合并为最终决策分类器。

　　8.kNN:k-nearestnei*敏*感*词*orclassification

　　K-NearestNei*敏*感*词*or (KNN) 分类算法是一种理论上成熟的方法，也是最简单的机器学习算法之一。这种方法的思想是：如果特征空间中一个样本的k个最相似（即特征空间中的最近邻）样本中的大部分属于某个类别，则该样本也属于该类别。

　　9.NaiveBayes

　　在众多分类模型中，使用最广泛的两种分类模型是决策树模型（DecisionTreeModel）和朴素贝叶斯模型（NBC）。朴素贝叶斯模型源于经典数学理论，数学基础扎实，分类效率稳定。同时，NBC模型需要的估计参数很少，对缺失数据不敏感，算法也比较简单。理论上，与其他分类方法相比，NBC 模型的错误率最小。然而，这并非总是如此。这是因为 NBC 模型假设属性彼此独立。这种假设在实际应用中往往是无效的，这对NBC模型的正确分类有一定的影响。当属性个数较多或属性间相关性较大时，NBC模型的分类效率不如决策树模型。当属性相关性较小时，NBC模型的性能最好。

　　10.CART：分类和回归树

　　购物车、分类和回归树。分类树下面有两个关键思想。第一个是关于递归划分自变量空间的思想；第二个想法是使用验证数据进行剪枝。

0

2021-09-03

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免规则采集器列表算法(数据挖掘领域的十大经典算法:C4.5、K-Means)

0 个评论

发起人

AI时代内容工厂

免规则采集器列表算法(数据挖掘领域的十大经典算法:C4.5、K-Means)

0 个评论

发起人

相关问题