WordPress胖鼠采集插件教程-WP手动采集和发布微信公众号,简书

优采云 发布时间: 2020-08-26 15:38

  WordPress胖鼠采集插件教程-WP手动采集和发布微信公众号,简书

  WordPress原本是一个博客,但是因为功能强悍、用户诸多,发展到如今Wordpress已然成为了一个CMS平台了,甚至有一些企业建站都用了Wordpress,真的是无处不在。Wordpress用于采集建站仍然以来做垃圾站的同学都在采用。

  一来是Wordpress的本身的SEO做得挺不错的,有利搜索引擎收录和SEO排名;另一方面则是Wordpress还有特别多的强悍插件,利用Wordpress采集插件不需要多么复杂的配置,新手也可以搭建一个每晚手动采集和手动发布的网站,放点小广告“坐收渔利”。

  WordPress采集插件十分多,但是基本上都是付费的,这篇文章主要来分享一下新出的Wordpress采集插件-胖鼠采集,开源免费, 支持所有网站列表详情页面,它有列表批量手动采集,自动发布,自动打标签等功能,可以用于采集微信公众号、简书以及其它各种网站。

  关于搜集和采集信息自动化,你还可以瞧瞧:

  利用Huginn抓取任意网站RSS和微信公众号更新-打造一站式信息阅读平台 自建RSS阅读器Tiny Tiny RSS安装和配置手动更新,全文RSS,更换主题,手机RSS登陆 VPS主机库存上货监控与陌陌\TG通知系统:VPS-Inventory-Monitoring安装与配置

  PS:2020年3月23日更新,好的插件还须要好的主题,国外的Wordpress主题市场比较成熟,我们可以试试: WordPress付费主题平台AppThemes:主题订购,安装,升级及问题 。

  一、WP胖鼠采集插件安装

  插件:

  WordPress胖鼠采集插件建议使用PHP 7,如你的PHP版本大于PHP7, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6,系统要求如下:

  PHP >= 5.6

  QueryList v4 版

  Mysql 无要求

  Nginx 无要求

  WordPress胖鼠采集插件主要功能如下:

  微信公众号文章采集 、简书文章采集 、列表页面文章批量采集 .

  详情页面文章采集 、分页爬取 – 历史数据, 也不放过. 一网打尽

  自动采集、自动发布 、文章自动添加动态内容 优化SEO.

  自动打标签 Auto Tags、文章过滤 、自动特*敏*感*词*片 .

  内容关键字过滤替换 伪原创 、自定义采集任何网站 .

  WordPress胖鼠采集插件主要有如下版块:

  ① 爬虫模块, 先锋 配置模块的各类特色配置来猎获数据.

  ② 配置模块, 支撑 爬虫模块为他提供采集规则核心能量.

  ③ 数据模块, 数据 此模块拥有胖鼠各类特色发布功能.

  安装Wordpress胖鼠采集插件后如下图:

  二、WP胖鼠采集插件操作2.1 配置中心

  在WP胖鼠采集插件配置中心就是早已配置好的采集规则的,Wordpress胖鼠采集插件自带了几个配置,你可以先点击导出一下。(点击放大)

  2.2 采集中心

  在采集中心就可以开始采集文章了,Wordpress胖鼠采集插件分为了列表采集和详情采集,列表采集可以批量采集某一个网站,详情采集就是采集某一个页面。

  2.3 数据中心

  采集完成后,你就可以到数据中心查看早已采集到的文章了,这里就可以点击发布了。(点击放大)

  WordPress胖鼠采集插件采集和发布文章效果还是不错的。

  这是Wordpress胖鼠采集插件采集文章的详情页面,完整地把网站的文章采集过来了。

  三、WP胖鼠采集微信公众号

  WordPress采集微信公众号的文章也十分地简单,先找到你要采集的微信公众号文章。

  然后在“采集中心”填入微信公众号文章的URL,支持批量添加多个URL,点击采集。

  采集完成后就可以发布采集过来的微信公众号文章了。如下图:

  四、WP胖鼠采集简书知乎

  WordPress采集简书、知乎等和前面采集微信公众号文章类似,直接输入URL就可以采集了。

  五、WP自定义采集任意网站

  WordPress胖鼠采集插件自带的几个配置文件实际上给我们演示用的,真正强悍的就是我们自己自定义Wordpress胖鼠采集插件采集规则,采集任意网站内容(非AJax)。

  5.1 新建采集规则

  在Wordpress胖鼠采集插件新建采集规则,这里以采集文章为例,先命名一下,选择列表配置(文章多,选择这个批量采集),其它保持如下图:

  然后填写采集地址、范围、采集规则等,如下图:

  一般来说采集规则须要时常多次的测试能够成功,所以在新建规则前我们先打开插件的Debug模式,在Chrome浏览器审查元素的网路一栏查看具体结果。

  5.2 列表采集规则

  采集范围就是Wordpress胖鼠采集插件要采集的URL列表,首页的最新文章的标题都是用H2+URL方式嵌套成的(点击放大)。

  所以我这儿采集范围填写的是:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径也不需要自己自动,直接在Chrome审查元素最下方可以看见,注意看上图。

  在列表采集规则写: a:eq(0) href,href 意思选择a标签的 href属性(就是URL),我们用 Jquery 的 eq 语法 a:eq(0) 意是取H2区域的 第一个 a。注:代码中从 0 开始(只有一个 a标签 可以只填 a 即可),如果目标站链接是相对链接。程序会手动补全的。

  在Debgu模式下,我们可以看见获取到了首页最新文章栏目下所有文章的URL地址了。

  5.3 详情采集规则

  上面我们早已采集了列表下的所有的URL,接下来我们就须要采集该URL下的文章内容了。打开某一个文章,我们发觉标题在.title-post上面,文章内容在.the-content。而标题和内容全部在 .single-post-box下。

  标题。现在我们可以将采集标题的规则写成如下了:范围为 .single-post-box,选择器为.title-post,属性为text。

  在Debug模式下可以看见我们成功获取到了文章标题。

  内容。采集内容的规定写成:范围为 .single-post-box,选择器为.the-content,属性为html。如下成功获取文章内容。

  最后,采集最新文章栏目下的所有的文章规则如下:(点击放大)

  六、WP自定义采集成功疗效

  在采集中心,点击我们刚才配置好的列表采集配置。

  稍等一会儿,Wordpress胖鼠采集插件就将最新文章全部采集过来了。

  点击发布,采集成功。

  七、WP自定义采集规则问题7.1 参数与属性

  WordPress胖鼠采集插件必填参数有三个:

  link 采集链接 一般是取 a 标签的 href 属性

  title 标题 一般取详情页的 h1 标签的 text 文本属性

  content 内容 一般取详情页面的 .content 标签 里面 html 属性。

  WordPress胖鼠采集插件属性解释如下:

  href 基本指 a 标签的 href 属性(这个属性储存的是点击后跳转地址)

  text 取区域的文本 ,一般用于标题

  html 取区域的所有的html 一般用到取内容,内容比较多。且内容有排版上面有 image css js 很多东西 。所以要领到所有的原创html

  7.2 jQuery 选择器

  jQuery 选择器几个如:first、:last、:odd等在下文的内容过滤中特别有用,大家可以熟悉一下。

  八、WP胖鼠采集优化方式8.1 内容过滤

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线