Wordpress自动捕获插件通过教程进行爬网

优采云 发布时间: 2020-08-07 16:58

  第二,下载并安装

  首先,下载最新版本并获取crawling_v * .tar.gz.

  然后,解压缩压缩包并将其上传到wordpress插件目录. 激活插件.

  使用教程

  使用教程

  三,任务管理

  任务可以理解为采集器,您可以在其中配置多个任务,并且每个任务可以分别设置参数.

  为每个任务分别设置的参数

  以从Internet采集信息的网站为例. 在这里,您只需右键单击以查看网页的源代码,以了解相应的链接Xpath规则. 在我们的目标网站中,指向文章的链接位于网站h2标签Label下,因此规则只写// h2 / a. 如下所示.

  

  

  

  类似地,文章标题匹配方法在文章页面源代码中

  标签下的h1标签,然后我们在匹配时将遵循Xpath规则并将其写为// div [@ class =” post-main clearfix”] / h1. @的功能是根据此规则选择class =“ post-main” clearfix“ div标签,然后编写与文章内容匹配的标签规则以开始采集.

  

  

  还有更多高级功能,例如翻页,内容过滤等,可以自定义以采集目标网站中的任何内容.

  功能不足,在该插件的实际操作中,发现目标网站的文章链接是相对链接,则无法成功采集该链接(这也可能是因为编辑者对以下内容的掌握不充分) Xpath规则),因此我选择了以网站为目标时,首先需要检查它,并确保该网站上的文章链接是绝对链接.

  本文的最新更新时间为2018年9月11日. 更新已超过一年. 如果文章内容或图片资源无效,请留言xichengyouju#(#change到@)反馈,我们将及时处理,谢谢!

  AD: [微博]锡成知道

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线