网站文章自动采集发布(WordPress采集,Crawling插件使用教程(组图)插件说明)

优采云发布时间: 2022-02-04 03:24

　　爬取插件说明

　　简单的设置，几个简单的步骤即可设置整个站点采集，并定期更新。自动匹配分类和标签，批量替换内容。

　　高速采集，可以设置抓取线程数和抓取延迟，最大限度控制抓取速度。防止主机公司限制，防止反爬虫。

　　内容过滤，支持翻页、内容过滤、广告过滤。灵活控制爬取内容，发布文章简洁明了。

　　智能发布，支持文章图片自动保存替换，添加到媒体库，链接到文章。支持上传到七牛云。

　　爬虫插件教程

　　首先，下载最新版本，获取 crawling_v*.tar.gz。然后，解压压缩包，上传到wordpress插件目录。激活插件。

　　首先，我们需要创建一个新任务。一个任务可以理解为一个爬虫。这里可以配置多个任务，每个任务可以单独设置参数。

　　以采集Accurate Pixels网站为例，这里只需要右键查看网页源代码就知道对应的链接Xpath规则是什么了。在我们的目标网站中，文章的链接在网站h2标签下的a标签中，所以只要写//h2/a作为规则即可。如下所示。

　　WordPress采集，爬虫插件截图

　　同样的，文章的标题匹配方法在文章页面的源码中

　　标签下的h1标签，那么我们匹配的时候，按照Xpath的规则，写成//div[@class=”post-main clearfix”]/h1，@的作用就是选择class=”post- main clearfix” div 标签，根据这个规则，然后写匹配文章内容的标签规则，就可以启动采集了。

　　WordPress采集，爬虫插件截图

　　还有更高级的功能，比如翻页、内容过滤等，可以完全实现自定义采集target网站内的任何内容。

　　缺点是这个插件在实际运行中发现如果目标网站的文章链接是相对链接，则不能采集成功（这里也可能是编辑器的Xpath链接规则还比较浅），所以在选择目标网站的时候需要先检查确认网站的文章链接是绝对链接。

　　点击此处下载

　　下载前请先注册为会员

　　已注册会员，请登录后下载

　　网盘密码：im5c

　　下载次数：0 文件大小：网盘资源价格：30 下载币

　　下载权限：无限制

0

2022-02-04

网站文章自动采集发布

0 个评论

要回复文章请先登录或注册