Wordpress自动捕获插件通过教程进行爬网

优采云发布时间: 2020-08-07 16:58

　　第二，下载并安装

　　首先，下载最新版本并获取crawling_v * .tar.gz.

　　然后，解压缩压缩包并将其上传到wordpress插件目录. 激活插件.

　　使用教程

　　三，任务管理

　　任务可以理解为采集器，您可以在其中配置多个任务，并且每个任务可以分别设置参数.

　　为每个任务分别设置的参数

　　以从Internet采集信息的网站为例. 在这里，您只需右键单击以查看网页的源代码，以了解相应的链接Xpath规则. 在我们的目标网站中，指向文章的链接位于网站h2标签Label下，因此规则只写// h2 / a. 如下所示.

　　类似地，文章标题匹配方法在文章页面源代码中

　　标签下的h1标签，然后我们在匹配时将遵循Xpath规则并将其写为// div [@ class =” post-main clearfix”] / h1. @的功能是根据此规则选择class =“ post-main” clearfix“ div标签，然后编写与文章内容匹配的标签规则以开始采集.

　　还有更多高级功能，例如翻页，内容过滤等，可以自定义以采集目标网站中的任何内容.

　　功能不足，在该插件的实际操作中，发现目标网站的文章链接是相对链接，则无法成功采集该链接（这也可能是因为编辑者对以下内容的掌握不充分） Xpath规则），因此我选择了以网站为目标时，首先需要检查它，并确保该网站上的文章链接是绝对链接.

　　本文的最新更新时间为2018年9月11日. 更新已超过一年. 如果文章内容或图片资源无效，请留言xichengyouju#（#change到@）反馈，我们将及时处理，谢谢！

　　AD: [微博]锡成知道

0

2020-08-07

采集的文章内容不能直接发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Wordpress自动捕获插件通过教程进行爬网

0 个评论

发起人

AI时代内容工厂

Wordpress自动捕获插件通过教程进行爬网

0 个评论

发起人

相关问题