自动采集编写(自动采集编写第一篇论文等方法的第四章)
优采云 发布时间: 2022-01-24 08:01自动采集编写(自动采集编写第一篇论文等方法的第四章)
自动采集编写第一篇论文,到现在已经有一周时间了,这期间经历了很多痛苦的事情,我也有过信心丧失、发呆、起身的低谷。在一篇连续七天没有出头的情况下,我都不想让人知道自己到底写了啥,既然要写这么多,那么自然都是要汇总到最后的。这周的主题是关于普通聚类的一些工作和理解,包括pca/ica等方法的理解,目的都是为了解决问题。
聚类已经是一个非常基础的工作了,我初中看过一些关于国内学者的介绍,深以为然,基本现有的检测技术都可以用聚类的方法来进行检测。我刚进入*敏*感*词*的时候,当时使用最多的是依靠尺度/通道自动筛选的方法,这种聚类方法的问题在于的问题是无法对不同图像元素进行区分,当然这也是因为当时的数据本身很稀疏,且数据分类质量并不高,才会出现这种问题。
现在从事数据挖掘方面的工作也近十年了,发现目前所有关于无监督的聚类方法,都存在着很多问题,有兴趣的读者可以在文末留言,相信下面会有解决方案。在第二篇讲解ica等方法的第四章里,提到的性质是准确度高、扩展性差的问题,也许这样说确实有失偏颇,但我认为ica算法在实际应用中并不存在太大问题,这些问题是基于计算复杂度的目的导致的。
同时在此过程中还发现了一些问题,比如我们所面临的数据库其实很杂乱,随便找一张看起来像的数据都可以聚到一起,这样真的很难进行很高效的聚类工作。看一些日本的数据库,可以发现三三相似是一个很奇怪的形状,m3图数据集里三三相似还可以接受,但在中国的三三相似图像数据集里就不行了,在调查过程中,发现他们的数据库其实是非常具有技术含量的,仔细想想的话,就觉得我们需要从好的方面看待问题。
确实,在当下的聚类里面,基本上只有一种单尺度聚类方法,那就是pca或者ica,但随着机器学习和深度学习的发展,深度学习和卷积神经网络都可以有很好的聚类效果。为什么不同尺度的聚类可以进行互聚,同时ica和pca算法都是基于数据的稀疏性来实现的,就是说每个数据点之间都是互相不重叠的,这样就实现了所谓的「多尺度聚类」。
但我在其他的文章当中也讲到过,这种多尺度是不一定需要经过网络的,也就是聚类算法本身并不包含这一项,这是一个思维误区。同时,本篇文章同样有一些问题在里面,为了降低读者的理解门槛,下面我在这个片段就不解释了。另外一方面,在实践过程中会遇到的问题其实是所谓的迭代问题,多尺度聚类方法往往需要迭代多次,特别是pca或者ica这种高层次的方法,这样无形当中增加了压力,或者说时间成本。这会使得一个聚类算法算法性能不再稳定,这是。