自动采集编写(自动采集编写第一篇论文等方法的第四章)

优采云发布时间: 2022-01-24 08:01

　　自动采集编写第一篇论文，到现在已经有一周时间了，这期间经历了很多痛苦的事情，我也有过信心丧失、发呆、起身的低谷。在一篇连续七天没有出头的情况下，我都不想让人知道自己到底写了啥，既然要写这么多，那么自然都是要汇总到最后的。这周的主题是关于普通聚类的一些工作和理解，包括pca/ica等方法的理解，目的都是为了解决问题。

　　聚类已经是一个非常基础的工作了，我初中看过一些关于国内学者的介绍，深以为然，基本现有的检测技术都可以用聚类的方法来进行检测。我刚进入*敏*感*词*的时候，当时使用最多的是依靠尺度/通道自动筛选的方法，这种聚类方法的问题在于的问题是无法对不同图像元素进行区分，当然这也是因为当时的数据本身很稀疏，且数据分类质量并不高，才会出现这种问题。

　　现在从事数据挖掘方面的工作也近十年了，发现目前所有关于无监督的聚类方法，都存在着很多问题，有兴趣的读者可以在文末留言，相信下面会有解决方案。在第二篇讲解ica等方法的第四章里，提到的性质是准确度高、扩展性差的问题，也许这样说确实有失偏颇，但我认为ica算法在实际应用中并不存在太大问题，这些问题是基于计算复杂度的目的导致的。

　　同时在此过程中还发现了一些问题，比如我们所面临的数据库其实很杂乱，随便找一张看起来像的数据都可以聚到一起，这样真的很难进行很高效的聚类工作。看一些日本的数据库，可以发现三三相似是一个很奇怪的形状，m3图数据集里三三相似还可以接受，但在中国的三三相似图像数据集里就不行了，在调查过程中，发现他们的数据库其实是非常具有技术含量的，仔细想想的话，就觉得我们需要从好的方面看待问题。

　　确实，在当下的聚类里面，基本上只有一种单尺度聚类方法，那就是pca或者ica，但随着机器学习和深度学习的发展，深度学习和卷积神经网络都可以有很好的聚类效果。为什么不同尺度的聚类可以进行互聚，同时ica和pca算法都是基于数据的稀疏性来实现的，就是说每个数据点之间都是互相不重叠的，这样就实现了所谓的「多尺度聚类」。

　　但我在其他的文章当中也讲到过，这种多尺度是不一定需要经过网络的，也就是聚类算法本身并不包含这一项，这是一个思维误区。同时，本篇文章同样有一些问题在里面，为了降低读者的理解门槛，下面我在这个片段就不解释了。另外一方面，在实践过程中会遇到的问题其实是所谓的迭代问题，多尺度聚类方法往往需要迭代多次，特别是pca或者ica这种高层次的方法，这样无形当中增加了压力，或者说时间成本。这会使得一个聚类算法算法性能不再稳定，这是。

0

2022-01-24

自动采集编写

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集编写(自动采集编写第一篇论文等方法的第四章)

0 个评论

发起人

AI时代内容工厂

自动采集编写(自动采集编写第一篇论文等方法的第四章)

0 个评论

发起人

相关问题