数据挖掘分类算法和聚类算法的区别和解决方法有哪些

优采云 发布时间: 2021-08-14 04:24

  数据挖掘分类算法和聚类算法的区别和解决方法有哪些

  学习数据挖掘的朋友熟悉分类算法和聚类算法。无论是分类算法还是聚类算法,都有很多具体的算法来实现特定的数据分析需求。在很多情况下,我们很难判断选择分类或聚类的时机。我们最直观的概念是分类和聚类都是将一个被分析的对象划分到某个类中,所以我觉得这两种方法其实是一回事。但是,当我们在学习了很多具体的算法之后回过头来看,分类和聚类实现的数据分析功能其实是大不相同的。它们之间不仅存在算法上的具体差异,更重要的是,甚至它们的应用程序也存在差异。领域和具体要解决的问题不一样。

  1.分类是否预定义是最直观的区别

  算法书籍经常这样解释两者的区别:分类是将一个对象划分到一个特定定义的类别中,而聚类是将一些对象根据特定的特征组织成几个类别。虽然一个对象被归入了某个类别,但是该分类的类别已经是预先定义好的,在聚类操作中,对象所属的类别是没有预先定义的。因此,对象的类别是否属于两者是两者最基本的区别。而这种差异只能从算法实现过程中看出。

  2.两者解决的具体问题不同

  分类算法的基本功能是进行预测。我们知道一个实体的具体特征,然后想确定这个实体属于哪个类别,或者根据一些已知条件估计感兴趣的参数。例如:我们知道某个人有10000元的存款,这个人没有结婚,有车,没有固定的房子。然后我们估计这个人是否会涉嫌信用欺诈。这是最典型的分类问题。预测结果是一个离散值。当预测结果为连续值时,分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新模式和新知识,这与数据挖掘和数据分析的根本目标是一致的。

  聚类算法的作用是降维。如果要分析的对象很多,我们需要进行分类和圈定,以提高数据分析的效率,这就是使用聚类算法。许多智能搜索引擎根据文本的相似度对返回的结果进行聚类。如果将相似的结果聚集在一起,用户可以轻松找到他们需要的内容。聚类方法只能起到降低分析问题复杂度的作用,即降维。一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目的不是发现知识,而是简化问题。聚类算法并没有直接解决数据分析的问题,最多只是数据预处理的过程。

  3. 有监督和无监督

  分类是一种有监督的算法,而聚类是一种无监督的算法。监督算法不是实时的。它需要一些数据来训练模型,模型可以预测。当新的待估计对象到来时,将其插入模型中,得到分类结果。聚类算法是实时的,即一次性的,给定统计指标,根据对象之间的相关性,将对象分为几类。在分类算法中,对象的类别依赖于训练好的模型,间接依赖于训练集中的数据。在聚类算法中,对象的类别依赖于其他待分析的数据对象。

  4.数据处理顺序不同

  在分类算法中,对待分析的数据进行一一处理,分类过程就像对数据进行标注的过程。来个数据,我把它放在模型中,然后给它打上标签。在聚类算法中,要分析的数据是同时处理的,进来一堆数据,同时分成几个小堆。因此,数据分类算法和数据聚类算法最大的区别就是时效性问题。在现有数据模型条件下,数据分类的效率往往远高于数据聚类的效率,因为一次只处理一个对象,而对于聚类结果,每当增加一个新的分析对象时, category 结果可能会发生变化,因此需要重新计算所有要分析的对象。

  5.典型的分类算法和聚类算法

  典型的分类算法有:决策树、神经网络、支持向量机模型、逻辑回归分析、核估计等。聚类方法包括基于链接关系的聚类算法、基于中心性的聚类算法、基于统计的聚类算法分布、基于密度的聚类算法等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线