规则采集文章软件(一下如何用优采云采集器采集器采集文章?的使用方法)
优采云 发布时间: 2021-11-15 07:07规则采集文章软件(一下如何用优采云采集器采集器采集文章?的使用方法)
优采云采集器如何采集文章?有时候我们看到一个网站的文章,就想保存这些文章。一张一张的复制保存很麻烦。这时候就需要使用优采云采集器保存文章采集,下面分享优采云的用法
有时我们看到一个网站的文章,就想保存这些文章。一张一张的复制保存很麻烦。这时候就需要使用优采云采集器保存文章采集。下面是如何使用优采云采集器采集文章。
软件名称:
QQ宠物经典360题补充(累积更新)
软件大小:
更新时间:
2009-04-27立即下载
第一步,下载采集 URL,下载优采云采集器,打开即可新建一个任意任务名称的任务。将需要采集的网站文章列表页面的URL添加到起始URL。从图中可以看出,列表页有34页,每页有N篇文章文章。
列表页面会获取一级URL,添加多级URL获取二级URL(文章page URL)
设置要通过分页检索的列表。三处分别为:分页源代码前后中间位置。此步骤用于获取列表页链接,因为列表页共有 34 个。设置好后保存。
URL获取选项,此步骤用于获取列表页文章页面的链接,根据自己的需要设置需要拦截的部分,根据需要设置收录或排除某些字符URL 的结构。如果为空,则没有限制,设置后保存。
设置好link采集规则后,可以测试URL,根据测试结果调整规则。看图可以看到采集链接规则已经成功,从初始链接到综合列表页,再到列表页采集上的文章页链接。
第二步是采集的内容。首先修改标题规则,在页面源码中找到标题代码,将标题前后的标题剪掉。节省。
内容修改采集规则类似于title规则,也是在源码中找到的内容前后的代码。这里的内容会有一些其他的html标签,所以你必须添加一个html标签排除规则。
完成测试后,查看结果并从测试结果中调试规则,直到测试结果是您想要的。
第三步是采集导出。1、2的前两步设置规则,最后导出文章。首先制作一个导出的模板。
然后选择方法二,将每篇文章文章记录成txt文本,自己保存位置,选择刚刚制作的模板导出模板。保存的文件名以文章的标题命名。其他默认,保存。
勾选采集 URL、采集内容的3个选项框,并发布,然后启动采集。完成后,文本会自动生成在刚刚保存的文件夹中。
优采云采集器采集文章教程到此结束。由于每一个网站都不同,这里只能使用一个网站。@>演示只是一种思维方式。您需要 采集文章 才能灵活。
相关文章