免规则采集器列表算法(数据挖掘领域的十大经典算法:C4.5、K-Means)
优采云 发布时间: 2021-09-03 22:25免规则采集器列表算法(数据挖掘领域的十大经典算法:C4.5、K-Means)
2006年12月国际权威学术组织评选出数据挖掘领域十大经典算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、NaiveBayes、AndCART
不仅是十个被选中的算法,十八个被选中的算法实际上都参与了评选。事实上,可以说是一种经典的算法,在数据挖掘领域产生了很大的影响。
1.C4.5.
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。 C4.5算法继承了ID3算法的优点,对ID3算法进行了以下几个方面的改进
1)使用信息增益率来选择属性,克服了选择信息增益时选择值较多的属性的缺点。
2)树结构过程中的Pruning
3)可以完成对连续属性的离散处理
4) 可以处理不完整的数据。
C4.5 算法具有分类规则简单易懂、准确率高等优点。缺点是在构建树的过程中,需要对数据集进行多次扫描排序,导致算法效率低下。
2.Thek-meansalgorithm 是 K-Means 算法。
K-means 算法是一种聚类算法,它根据属性 K 将 N 个对象分成 K 个段。
3.Supportvectormachines。
Support Vector Machine,英文是SupportVectorMachine,简称SV机(论文中一般简称为SVM)。这是一种监督学习的方法,广泛用于统计分类和回归分析。支持向量机将向量映射到更高维的空间,并在该空间建立最大的分离超平面。在分隔数据的超平面的两侧建立两个相互平行的超平面。分离超平面最大化两个平行超平面之间的距离。假设平行超平面之间的距离或间隙越大,分类器的总误差越小。一个很好的指南是 C.J.CBurges 的模型识别支持向量机指南。 vanderWalt 和 Barnard 支持向量机与其他分类器进行了比较。
4.TheApriorialgorithm。
Apriori 算法是挖掘布尔关联规则频繁项集影响最大的算法。它的核心是一个基于两个阶段频繁思考的渐进算法。相关规则分为单维、单层和布尔相关规则。这里,所有支持度大于最小支持度的项目称为频繁项目,简称频繁项目。
5.最大期望(EM)算法。
在统计计算中,最大期望(EM,Expectation-Maximization)算法是在概率模型中,率模型依赖于不可观察的隐藏变量。最大的期望通常用于机器学习和计算机视觉中的数据采集领域。
6.PageRank。
Mark 是 Google 算法的重要组成部分。美国专利于2001年9月获得授权,专利权人是谷歌创始人之一拉里佩奇。所以PageRank中的page并不是指网页,而是指Page,也就是说这种分类方法是以Page命名的。
PageRank 根据网站 的外部和内部链接的数量和质量来衡量网站 的价值。 PageRank 背后的概念是每个页面的链接都是对页面的投票。链接越多,其他网站 的投票就越多。这就是所谓的链接流行度——衡量有多少人愿意将他们的网站 与您的网站 联系起来的指标。 PageRank的概念是学术论文被引用的频率,也就是说,被他人引用的次数越多,一般对论文的判断就越权威。
7.AdaBoost。
Adaboost 是一种迭代算法。它的核心思想是对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器整合起来,形成一个更强的最终分类器(强分类器)。算法本身是通过改变数据分布来实现的。每个样本的正确值是根据每个训练集中每个样本的分类是否正确,以及上次整体分类的准确率来确定的。将修改权重的新数据集送到底层分类器进行训练,最后将每次训练得到的分类器最后合并为最终决策分类器。
8.kNN:k-nearestnei*敏*感*词*orclassification
K-NearestNei*敏*感*词*or (KNN) 分类算法是一种理论上成熟的方法,也是最简单的机器学习算法之一。这种方法的思想是:如果特征空间中一个样本的k个最相似(即特征空间中的最近邻)样本中的大部分属于某个类别,则该样本也属于该类别。
9.NaiveBayes
在众多分类模型中,使用最广泛的两种分类模型是决策树模型(DecisionTreeModel)和朴素贝叶斯模型(NBC)。朴素贝叶斯模型源于经典数学理论,数学基础扎实,分类效率稳定。同时,NBC模型需要的估计参数很少,对缺失数据不敏感,算法也比较简单。理论上,与其他分类方法相比,NBC 模型的错误率最小。然而,这并非总是如此。这是因为 NBC 模型假设属性彼此独立。这种假设在实际应用中往往是无效的,这对NBC模型的正确分类有一定的影响。当属性个数较多或属性间相关性较大时,NBC模型的分类效率不如决策树模型。当属性相关性较小时,NBC模型的性能最好。
10.CART:分类和回归树
购物车、分类和回归树。分类树下面有两个关键思想。第一个是关于递归划分自变量空间的思想;第二个想法是使用验证数据进行剪枝。