自动采集文章文章源:a5soft自动爬取目录常见的爬虫规则
优采云 发布时间: 2021-04-01 23:01自动采集文章文章源:a5soft自动爬取目录常见的爬虫规则
自动采集文章文章源:a5soft自动采集目录常见的爬虫规则
一、原理
二、五步取文章url1.定义你的分类2.添加地址,
一、原理我们要爬取的文章,都是在某一个类别下。而我们爬取的关键就是——判断是否可以转发对我们的规则来说,就是要判断有多少用户可以看到我们的文章。(是否可以分享)能看的用户越多,意味着文章内容会被展示的越多;反之亦然。我们选定一个自己觉得可以展示的url之后,把文章存储起来。爬虫自动爬取相应分类的文章,把文章的url存储起来。我们把每一个分类爬取到的文章的url存放到工具里面。如果不要这个文章,直接删除即可。
二、五步获取文章url首先我们根据查询规则查找分类,以语言分类为例,看结果。在确认分类之后,我们把之前我们定义的分类url取出来。在aiza那里,选择分类为语言分类。定义爬取路径,要去哪个分类这个可以根据自己的实际情况来定。(比如你想爬取美食、旅游、影视,可以去aiza那里,这里就不展示图了)可以看到我们从语言分类里找到了每一个分类的url。
把文章存储到工具。把分类url存储到工具工具是生成一个名为“html文件”的文件,可以同时存储分类的名称。我们先观察一下文件结构,如下图。为了爬取相关信息,我们需要指定存储路径和存储文件名。如果你懒得指定,那么这样也可以的。这样我们有一个目录,然后定义url。aiza工具会根据不同的文件夹爬取相应的文章。