多线程带智能采集策略的采集系统
优采云 发布时间: 2020-08-14 04:54看到很多人关注的是我这个所谓的“智能”吧。
做过采集程序的人都应当晓得,刚开始的时侯,很多都是针对个别网站写的采集,所有规则,都是定好了的;到了后来,出现了按照ID列表采集、指定要 采集页面哪部份等较为智能的采集,但是,这些智能还是有特别大的局限性的。现在的好多采集程序,所能做到的最多的莫过于执行采集一个网页的某一部分内容 了,比如辨识出一个网页那里是标题,哪里是内容,这些早已没哪些新意了,我也不多说。
文中我提及的智能,其实有点类似学院时侯学的人工智能。使用者只须要指定规则,给出初始化条件,然后随着程序的执行,某些条件处理后,将会得到更多条件,而个别条件处理后,将会得到结果。
我这样做,尽管不是最好的,但是对于采集的页面,比起传统的方式来,已经好些了。
我十分赞成“T.t.T!Ck. ”的说法,基于统计理论,这个看法,我也想过,只是时间问题没有做下来。
一个页面,如果大量存在同样格式的数据,那么,就可以把这种判断为列表页,如果存在大量的内容,就可以判断为详尽页。这样做,尽管不能囊括全部,但也能应用到好多采集上去了。
没有做过采集的人,是很难看出这个“智能”的。
我写的程序,只是为了否认我这个看法是否可行,我不喜欢给出所有代码,抱歉!~更多评论