文章自动采集和发布(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))

优采云 发布时间: 2021-10-27 22:13

  文章自动采集和发布(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))

  WordPress原本是一个博客,但由于其强大的功能和众多的用户,如今的Wordpress已经成为一个cms平台,甚至一些公司也使用Wordpress来建立自己的网站。它真的无处不在。Wordpress习惯于采集建站,做过垃圾站的朋友一直在用。

  一方面,Wordpress自身的SEO做得相当好,有利于搜索引擎收录和SEO排名;另一方面,Wordpress 有很多强大的插件。不必使用 Wordpress采集 插件。配置多复杂,新手也可以搭建一个每日自动采集和自动发布网站,放一些小广告来“暴利”。

  WordPress采集 插件很多,但基本都是收费的。本文文章主要分享新的Wordpress采集插件-胖鼠采集,开源免费,支持所有网站列表详情页,具有以下功能批量列表自动采集、自动发布、自动标注等,可用于采集微信公众号、短书等类型网站。

  

  关于采集和采集信息自动化,你也可以看看:

  使用Huginn抓取任意网站RSS和微信公众号更新——打造一站式资讯阅读平台 自建RSS阅读器 Tiny Tiny RSS安装配置自动更新、全文RSS、更改主题、手机RSS登录VPS主机库存发货监控和微信\TG通知系统:VPS-库存-监控安装配置

  PS:2020年3月23日更新,好插件需要好主题。国外的WordPress主题市场相对成熟。我们可以试试:WordPress付费主题平台AppThemes:主题购买、安装、升级及问题。

  一、WP胖鼠采集插件安装

  插入:

  WordPress Fat Mouse 采集插件推荐使用PHP 7。如果您的PHP版本低于PHP7,请下载Fat Mouse 采集的Github下载并使用Fat Mouse v5分支名称:based_php_5.6 ,系统要求如下:

  PHP >= 5.6

  查询列表 v4 版本

  Mysql 无要求

  Nginx 无要求

  WordPress Fat Mouse 采集 插件的主要功能如下:

  微信公众号文章采集,短书文章采集,列表页文章批量采集。

  详情页文章采集,分页爬取——历史数据,不要放过。

  自动采集,自动发布,文章自动添加动态内容优化SEO。

  自动标签、文章 过滤、自动精选图片。

  内容关键字过滤替换伪原创,自定义采集 任何网站。

  WordPress Fat Mouse 采集 插件主要有以下几个部分:

  ① 爬虫模块,先锋配置模块的各种特色配置,用于搜索数据。

  ②配置模块,支持爬虫模块为他提供采集规则的核心能量。

  ③ 数据模块,该模块具有胖鼠的各种特征发布功能。

  安装Wordpress Fat Mouse 采集插件后,如下图:

  

  二、WP胖鼠采集插件操作2.1 配置中心

  在WP Fat Mouse 采集插件配置中心,已经配置了采集规则。Wordpress Fat Mouse 采集 插件自带几个配置,可以先点击导入。(点击放大)

  

  2.2 采集 中心

  您可以在采集中心启动采集文章。Wordpress Fat Mouse 采集插件分为列表采集和详细信息采集,列表采集可以批量采集某个网站,详情采集是某个页面采集。

  

  2.3 数据中心

  采集完成后可以去数据中心查看已经成为采集的文章,点击这里发布即可。(点击放大)

  

  WordPress Fat Mouse 采集 插件采集 和发布文章 仍然有效。

  

  这是Wordpress Fat Mouse 采集plugin采集文章的详细页面,把网站的文章采集彻底带过去了。

  

  三、WP胖鼠采集微信公众号

  WordPress采集微信公众号文章也很简单,先找到你想要的微信公众号文章采集。

  

  然后在“采集中心”填写微信公众号文章的网址,可以批量添加多个网址,点击采集。

  

  采集完成后,您可以从采集发布微信公众号文章。如下所示:

  

  四、WP胖鼠采集简书知乎

  WordPress采集简书、知乎等类似上面的采集微信公众号文章,直接输入网址到采集即可。

  

  五、WP 自定义采集任何网站

  WordPress Fat Mouse 采集 插件自带几个配置文件,实际用于演示。真正强大的是我们自定义了Wordpress Fat Mouse 采集插件采集规则,采集任何网站内容(不是AJax)。

  5.1 创建一个新的 采集 规则

  在 Wordpress Fat Mouse 采集 插件中创建一个新的 采集 规则。这里以采集文章为例。先命名并选择列表配置(文章更多,选择这个Batch 采集),其他保持如下图:

  

  然后填写采集地址、范围、采集规则等,如下图:

  

  一般来说,采集规则需要频繁的测试才能成功,所以在新建规则之前,我们先打开插件的Debug模式,在Chrome浏览器review元素的network栏中查看具体结果。

  

  5.2 列表采集 规则

  采集的作用域是Wordpress胖鼠标采集插件到采集的URL列表,首页最新文章的标题嵌套在表单中H2+URL(点击放大)。

  

  所以我这里填采集的范围是:#cat_all >.news-post.article-post>.row>.col-sm-7>.post-content>h2,这个路径不需要要手动的话,可以直接在Chrome审核元素底部看到,注意上图。

  在列表采集规则中写:a:eq(0) href,href表示选择a标签(即URL)的href属性,我们使用jquery的eq语法a:eq(< @0) 表示取H2区的第一个a 注意:代码从0开始(只能填a标签)如果目标站链接是相对链接,程序会自动完成它。

  

  在Debgu模式下,我们可以看到首页最新的文章栏下文章的所有URL地址都已经获取到了。

  

  5.3个细节采集规则

  我们已经采集上面列表中的所有URL,接下来我们需要采集这个URL下文章的内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。标题和内容都在.single-post-box 下。

  

  标题。现在我们可以这样写采集标题规则:作用域是.single-post-box,选择器是.title-post,属性是文本。

  

  在Debug模式下,可以看到我们已经成功获取到文章标题。

  

  内容。采集的内容写成:scope为.single-post-box,选择器为.the-content,属性为html。成功获取文章的内容如下。

  

  最后,采集 latest文章栏下的所有文章规则如下:(点击放大)

  

  六、WP 自定义 采集 成功结果

  在采集中心,点击我们刚刚配置的列表采集配置。

  

  稍等片刻,Wordpress Fat Mouse 采集 插件会把所有最新的文章 全部采集 都带过来。

  

  点击发布,采集成功。

  

  七、WP 自定义采集规则问题7.1 参数和属性

  WordPress Fat Mouse 采集 插件需要三个参数:

  link 采集 链接一般是a标签的href属性

  title标题一般取详情页h1标签的text属性

  内容一般取自详情页的 .content 标签中的 html 属性。

  WordPress Fat Mouse 采集 插件属性解释如下:

  href基本上是指a标签的href属性(该属性存储点击后的跳转地址)

  text 取区域的文本,一般用于标题

  html提取区的所有html一般都是用来提取内容的,内容比较多。并且内容有很多像image css js 排版的东西。所以得到所有的原创html

  7.2 jQuery 选择器

  几个jQuery选择器,比如odd,在下面的内容过滤中非常有用,大家可以熟悉一下。

  

  八、WP胖鼠采集优化方法8.1 内容过滤

  正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:

  a是去除区域内所有a标签跳转功能。保留文本。

  -a 删除a标签包括删除a标签中收录的内容(不推荐,因为有些图片在a中,a中的图片也没有了。)

  -div 删除所有 div

  -p 同上

  -b 同上

  -span 同上

  -p:先删除第一个p标签

  -p:last 删除最后一个 p 标签

  -p:eq(-2) 删除倒数第二个 p

  -p:eq(2) 删除两个正p

  比如我写的过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first,意思是删除# ftwp-container -outer, #sociables, .uc-favorite-2.uc-btn 三个div内容,同时也删除了最p和第一个ol列表。

  8.2 URL自动转拼音

  Wenprise 拼音 Slug

  WordPress 胖鼠标 采集 插件设置的标题收录文本。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将 文章 别名更改为英文或拼音。

  

  8.3 自动添加标签

  简单标签

  WordPress胖鼠采集插件自带自动标注功能。如果觉得不好用,可以使用WP自动标签插件Simple Tags为你的文章自动生成标签,自动添加链接地址等。

  

  8.4 自动设置特*敏*感*词*片

  快速精选图片

  快速精选图片可以帮助您设置自动采集 和发布的文章 精选图片。

  

  九、WP自动采集和自动发布

  插入:

  WordPress Fat Mouse 采集 插件可以设置自动 采集 频率。

  

  WordPress Fat Mouse 采集 插件还可以设置自动发布间隔。

  

  要更改自动采集和自动发布的时间,可以使用WP Crontrol插件。启用插件后,您应该能够看到 WordPress 网站 上发生的所有“定时任务”。

  

  点击编辑定时任务(Wordpress Fat Mouse 采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。

  

  十、总结

  WordPress Fat Mouse 采集 插件非常强大,只要你想要采集 不是ajax 的页面,都可以使用Wordpress Fat Mouse 采集 插件自动采集 并发布文章 为了防止搜索引擎发现你也可以替换链接和关键字,在页面前后插入某些内容,形成“伪原创”。

  WordPress胖鼠采集插件目前没有监控功能,即当某个网站的内容更新时,实际上是无法跳转到采集的。我们可以用规则来写。一般来说,第一篇文章就是最近更新的文章。这时候我们可以将采集的范围缩小到第一个H2区域,写法如下:

  #cat_all> div:nth-child(1)> div> div.col-sm-7> div> h2

  文章来自:Dig Station No,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线