文章采集发布(一下如何用优采云采集器采集文章保存下来的水貔藻疽)
优采云 发布时间: 2022-01-18 15:15文章采集发布(一下如何用优采云采集器采集文章保存下来的水貔藻疽)
有时我们会看到 网站 中的 文章。如果我们要保存这些文章,一个一个复制保存起来很麻烦。这时候,我们需要使用优采云采集器Saved 文章采集。下面介绍如何使用优采云采集器采集文章。
1第一步采集URL,下载后优采云采集器,打开,新建任务,任务名称可选。将需要 采集 的 网站文章 列表页面的 URL 添加到起始 URL。从图中可以看出,列表页有34页,每页有N篇文章。
2 列表页面会有一级URL,添加多级URL获取,从而获取二级URL(文章页面URL)
3 设置列表分页获取,三个地方分别是:分页源码的正反面和中间位置。此步骤用于获取列表页链接,因为列表页共有 34 个。设置后保存。
4.获取URL的选项:此步骤用于获取列表页面上文章页面的链接,根据自己的需要设置要截取的部分,设置是否收录某些字符根据 URL 的结构。如果为空,则没有限制。设置好后保存。
5 设置链接采集规则后,可以测试URL,根据测试结果调整规则。看图可以看到,采集链接规则已经从初始链接到综合列表页面成功链接到列表页面采集上的文章页面。
6 第二步是采集的内容。一、修改标题规则,在页面源码中找到标题的代码,取标题前后的代码取出标题。保存。
7 修改内容采集规则,与标题规则类似,也是源码中找到的内容前后的代码。这个内容中还会有一些其他的html标签,所以你必须添加一个html标签排除规则。
8 完成后,测试查看结果,从测试结果中调试规则,直到测试结果是你想要的。
9第三步是采集导出。前面的1、2步设置规则,最后导出文章。首先制作一个导出模板。
10 然后选择方法2,将每一个文章记录成一个txt文本,自己选择保存位置,选择刚才为模板制作的导出模板。用 文章@ > 保存文件名,标题被命名。其他默认,保存。
11 检查 采集 URL、采集 内容,并发布三个选项框,然后启动 采集。完成后会在你刚刚保存的文件夹中自动生成文本。
12优采云采集器采集文章教程现已完成。由于每个网站都不一样,所以只有一个网站演示只是一个方法思路,需要灵活变通。
如果此经验对您有帮助,请记得投票。
如果还有什么不明白的,欢迎留言,点击投票会自动弹出评论框。