Wordpress自动捕获插件通过教程进行爬网
优采云 发布时间: 2020-08-07 16:58第二,下载并安装
首先,下载最新版本并获取crawling_v * .tar.gz.
然后,解压缩压缩包并将其上传到wordpress插件目录. 激活插件.
使用教程
使用教程
三,任务管理
任务可以理解为采集器,您可以在其中配置多个任务,并且每个任务可以分别设置参数.
为每个任务分别设置的参数
以从Internet采集信息的网站为例. 在这里,您只需右键单击以查看网页的源代码,以了解相应的链接Xpath规则. 在我们的目标网站中,指向文章的链接位于网站h2标签Label下,因此规则只写// h2 / a. 如下所示.
类似地,文章标题匹配方法在文章页面源代码中
标签下的h1标签,然后我们在匹配时将遵循Xpath规则并将其写为// div [@ class =” post-main clearfix”] / h1. @的功能是根据此规则选择class =“ post-main” clearfix“ div标签,然后编写与文章内容匹配的标签规则以开始采集.
还有更多高级功能,例如翻页,内容过滤等,可以自定义以采集目标网站中的任何内容.
功能不足,在该插件的实际操作中,发现目标网站的文章链接是相对链接,则无法成功采集该链接(这也可能是因为编辑者对以下内容的掌握不充分) Xpath规则),因此我选择了以网站为目标时,首先需要检查它,并确保该网站上的文章链接是绝对链接.
本文的最新更新时间为2018年9月11日. 更新已超过一年. 如果文章内容或图片资源无效,请留言xichengyouju#(#change到@)反馈,我们将及时处理,谢谢!
AD: [微博]锡成知道