规则采集文章软件(一下如何用优采云采集器采集器采集文章?的使用方法)

优采云 发布时间: 2021-11-15 07:07

  规则采集文章软件(一下如何用优采云采集器采集器采集文章?的使用方法)

  优采云采集器如何采集文章?有时候我们看到一个网站的文章,就想保存这些文章。一张一张的复制保存很麻烦。这时候就需要使用优采云采集器保存文章采集,下面分享优采云的用法

  有时我们看到一个网站的文章,就想保存这些文章。一张一张的复制保存很麻烦。这时候就需要使用优采云采集器保存文章采集。下面是如何使用优采云采集器采集文章。

  软件名称:

  QQ宠物经典360题补充(累积更新)

  软件大小:

  更新时间:

  2009-04-27立即下载

  第一步,下载采集 URL,下载优采云采集器,打开即可新建一个任意任务名称的任务。将需要采集的网站文章列表页面的URL添加到起始URL。从图中可以看出,列表页有34页,每页有N篇文章文章。

  

  

  列表页面会获取一级URL,添加多级URL获取二级URL(文章page URL)

  

  设置要通过分页检索的列表。三处分别为:分页源代码前后中间位置。此步骤用于获取列表页链接,因为列表页共有 34 个。设置好后保存。

  

  

  URL获取选项,此步骤用于获取列表页文章页面的链接,根据自己的需要设置需要拦截的部分,根据需要设置收录或排除某些字符URL 的结构。如果为空,则没有限制,设置后保存。

  

  设置好link采集规则后,可以测试URL,根据测试结果调整规则。看图可以看到采集链接规则已经成功,从初始链接到综合列表页,再到列表页采集上的文章页链接。

  

  

  第二步是采集的内容。首先修改标题规则,在页面源码中找到标题代码,将标题前后的标题剪掉。节省。

  

  内容修改采集规则类似于title规则,也是在源码中找到的内容前后的代码。这里的内容会有一些其他的html标签,所以你必须添加一个html标签排除规则。

  

  完成测试后,查看结果并从测试结果中调试规则,直到测试结果是您想要的。

  

  第三步是采集导出。1、2的前两步设置规则,最后导出文章。首先制作一个导出的模板。

  

  然后选择方法二,将每篇文章文章记录成txt文本,自己保存位置,选择刚刚制作的模板导出模板。保存的文件名以文章的标题命名。其他默认,保存。

  

  勾选采集 URL、采集内容的3个选项框,并发布,然后启动采集。完成后,文本会自动生成在刚刚保存的文件夹中。

  

  

  优采云采集器采集文章教程到此结束。由于每一个网站都不同,这里只能使用一个网站。@>演示只是一种思维方式。您需要 采集文章 才能灵活。

  相关文章

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线