没有做过采集的人,我不喜欢给出所有代码

优采云 发布时间: 2021-07-20 05:14

  没有做过采集的人,我不喜欢给出所有代码

  看到很多人关心我所谓的“智商”。

  做过采集程序的应该知道,一开始很多都是为一些网站采集写的,所有的规则都定了;之后,有一个基础ID列表采集,指定页面的哪个部分采集,以及其他更聪明的采集,但这些智能仍然有很大的局限性。现在很多采集程序,能做的最多的就是执行采集网页的某个部分,比如识别一个网页的标题在哪里,内容在哪里,这些都不是什么新鲜事,我也不多说。

  我在文章中提到的智能其实和我在大学里学到的人工智能有点相似。用户只需要指定规则并给出初始条件,然后随着程序的执行,经过一些条件的处理,会得到更多的条件,经过一些条件的处理,就会得到结果。

  我这样做了,虽然不是最好的,但是对于采集页面来说,比传统的方法要好。

  我非常同意“T.t.T!Ck.”这句话。基于统计理论,我也想过这个想法,但是时间的问题还没有做出来。

  一个页面,如果相同格式的数据量大,可以判断为列表页面,如果内容量大,可以判断为详细页面。这样做,虽然不能面面俱到,但也可以适用于很多采集。

  没去过采集的人很难看出这种“聪明”。

  我写的程序只是为了证明我的想法是否可行。我不喜欢给出所有的代码。对不起! ~更多评论

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线