没有做过采集的人，我不喜欢给出所有代码

优采云发布时间: 2021-07-20 05:14

　　没有做过采集的人，我不喜欢给出所有代码

　　看到很多人关心我所谓的“智商”。

　　做过采集程序的应该知道，一开始很多都是为一些网站采集写的，所有的规则都定了；之后，有一个基础ID列表采集，指定页面的哪个部分采集，以及其他更聪明的采集，但这些智能仍然有很大的局限性。现在很多采集程序，能做的最多的就是执行采集网页的某个部分，比如识别一个网页的标题在哪里，内容在哪里，这些都不是什么新鲜事，我也不多说。

　　我在文章中提到的智能其实和我在大学里学到的人工智能有点相似。用户只需要指定规则并给出初始条件，然后随着程序的执行，经过一些条件的处理，会得到更多的条件，经过一些条件的处理，就会得到结果。

　　我这样做了，虽然不是最好的，但是对于采集页面来说，比传统的方法要好。

　　我非常同意“T.t.T!Ck.”这句话。基于统计理论，我也想过这个想法，但是时间的问题还没有做出来。

　　一个页面，如果相同格式的数据量大，可以判断为列表页面，如果内容量大，可以判断为详细页面。这样做，虽然不能面面俱到，但也可以适用于很多采集。

　　没去过采集的人很难看出这种“聪明”。

　　我写的程序只是为了证明我的想法是否可行。我不喜欢给出所有的代码。对不起！～更多评论

0

2021-07-20

智能采集组合文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

没有做过采集的人，我不喜欢给出所有代码

0 个评论

发起人

AI时代内容工厂

没有做过采集的人，我不喜欢给出所有代码

0 个评论

发起人

相关问题