自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图)
优采云 发布时间: 2021-08-24 23:17自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图)
WordPress原本是一个博客,但由于其强大的功能和众多的用户,使得Wordpress成为了cms平台。一些公司甚至使用 Wordpress 来建立他们的网站,这真的无处不在。 Wordpress for 采集建站已经被垃圾站的朋友用过。
一方面,Wordpress自身的SEO非常好,有利于搜索引擎收录和SEO排名;另一方面,Wordpress 有很多强大的插件。使用Wordpress采集插件不需要太多。对于复杂的配置,新手也可以每天搭建一个自动采集和自动发布网站,放一些小广告来“赚一笔”。
WordPress采集插件很多,但基本都是付费的。本文章主要是分享新的Wordpress采集插件-胖鼠采集,开源免费,支持所有网站List详情页,具有批量自动采集、自动发布、自动标注等,可用于采集微信公众号、短书等网站。
关于采集和采集信息自动化,你也可以看看:
使用Huginn抓取任意网站RSS和微信公众号更新——打造一站式资讯阅读平台,自建RSS阅读器 Tiny Tiny RSS安装配置自动更新,全文RSS,更换主题,手机RSS登录VPS主机库存加载监控和微信\TG通知系统:VPS-库存-监控安装配置
PS:2020 年 3 月 23 日更新,好的插件也需要好的主题。国外的WordPress主题市场相对成熟。我们可以试试:WordPress付费主题平台AppThemes:主题购买、安装、升级及问题。
一、WP胖鼠采集插件安装
插件:
WordPress Fat Mouse采集插件推荐使用PHP 7。如果您的PHP版本低于PHP7,请到Fat Mouse 采集的Github下载Fat Mouse v5。分支名称:based_php_5.6,系统需求如下:
PHP >= 5.6
QueryList v4 版本
Mysql 无要求
Nginx 无要求
WordPress Fat Mouse采集插件的主要功能如下:
微信公众号文章采集、简书文章采集、列表页文章batch采集.
详情页文章采集,分页爬取——历史数据,不要放过。一口气搞定
自动采集,自动发布,文章自动添加动态内容优化SEO。
自动标签、文章filtering、自动精选图片。
WordPress Fat Mouse采集插件主要有以下几个部分:
① Crawler 模块,Pioneer 配置模块的各种功能来搜索数据。
②配置模块,支持爬虫模块为他提供采集rule核心能量。
③数据模块,数据该模块具有胖鼠的各种特性发布功能。
安装Wordpress fat mouse采集插件后,显示如下图:
二、WP胖鼠采集plugin操作2.1配置中心
在WP Fat Mouse采集plugin配置中心,已经配置了采集规则。 Wordpress Fat Mouse采集 插件自带几个配置,可以先点击导入。 (点击放大)
2.2 采集中心
您可以在采集中心启动采集文章。 Wordpress胖鼠标采集插件分为列表采集和详细信息采集,列表采集可以批量采集某一个网站,详细信息采集是采集某个页面。
2.3 数据中心
采集完成后,可以去数据中心查看已经采集的文章,可以点击这里发布。 (点击放大)
WordPress fat mouse采集plugin采集 和发布文章 仍然有效。
这是Wordpress fat mouse采集plugin采集文章的详细页面,这里是网站的完整文章采集。
三、WP胖鼠采集微信公号
WordPress采集微信公号的文章也很简单,先找到你想要的微信公众号文章采集。
然后在“采集中心”填写微信公众号文章的网址,可以批量添加多个网址,点击采集。
采集完成后,可以发布采集过来的微信公众号文章。如下图:
四、WP 胖鼠采集简书知乎
WordPress采集简书、知乎等类似上面的采集微信公号文章,只需输入网址到采集即可。
五、WPCustom采集any网站
WordPress fat mouse采集 插件自带几个配置文件给我们演示。真正强大的是我们自定义了Wordpress fat mouse采集plugin采集rules, 采集any网站content(不是AJax)。
5.1 新的采集rule
在Wordpress fat mouse采集插件中创建采集规则,这里以采集文章为例,先命名,选择列表配置(文章多,选择这批采集),其他保留下图:
然后填写采集地址、范围、采集规则等,如下图:
一般来说采集规则需要多次测试才能成功,所以在新建规则之前,我们先打开插件的Debug模式,查看具体结果在元素的network列中Chrome 浏览器。
5.2 list采集rule
采集 范围是Wordpress fat mouse采集 插件到采集 的URL 列表。首页最新文章的标题以H2+URL的形式嵌套(点击放大)。
所以我在这里填写的采集范围是:#cat_all >.news-post.article-post> .row> .col-sm-7> .post-content> h2,这个路径不需要要手动,可以直接在Chrome审核元素底部看到,注意上图。
在列表采集规则中写:a:eq(0)href,href表示选择a标签的href属性(即URL),我们使用jquery的eq语法a:eq(0)表示取H2区的第一个a。注:代码从0开始(a标签只能填一个a),如果目标站链接是相对链接,程序会自动补全。
在Debgu模式下,可以看到首页最新文章列下文章的URL地址全部都已经获取到了。
5.3 details采集rules
我们有采集上面列表中的所有网址,然后我们需要网址采集下的文章内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。标题和内容都在.single-post-box下。
标题。现在我们可以写出采集title 规则如下:作用域是.single-post-box,选择器是.title-post,属性是文本。
在Debug模式下,可以看到我们成功获取了文章title。
内容。 采集内容写成:作用域为.single-post-box,选择器为.the-content,属性为html。获取文章内容如下。
最后采集新文章栏下的所有文章规则如下:(点击放大)
六、WPCustom 采集成功效果
在采集中心,点击我们刚刚配置的列表采集configuration。
稍等,Wordpress Fat Mouse采集 插件会带来最新的文章all采集。
点击发布,采集成功。
七、WPCustom 采集Rules Question7.1 参数和属性
WordPress fat mouse采集 插件需要三个参数:
link 采集 通常采用 a 标签的 href 属性
title title一般取详情页h1标签的text属性
content 一般取自详情页的 .content 标签中的 html 属性。
WordPress fat mouse采集插件属性解释如下:
href 基本上是指a标签的href属性(该属性存储点击后的跳转地址)
text 取区域的文字,一般用于标题
html提取区的所有html一般都是用来提取内容的,内容比较多。并且内容有很多像image css js 排版的东西。所以得到所有的原创html
7.2 jQuery 选择器
几个jQuery选择器如:first、:last、:odd等在下面的内容过滤中非常有用,你可以熟悉它们。
八、WP胖鼠采集优化方法8.1 内容过滤
正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:
a 是去掉 a 区域内所有的标签跳转功能。保留文字。
-a 删除a标签,包括删除a标签中收录的内容(不推荐,因为有些图片在a中。删除a中的图片就消失了。)
-div 删除所有 div
-p 同上
-b 同上
-span 同上
-p:先删除第一个p标签
-p:last 删除最后一个 p 标签
-p:eq(-2)删除倒数第二个p
-p:eq(2)删除正数二p
比如我写的过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first,意思是删除#ftwp- Container-outer, #sociables, .uc-favorite-2.uc-btn 三个div内容,同时删除最p和第一个ol列表。
8.2 URL自动转拼音
Wenprise 拼音 Slug
WordPress fat mouse采集 插件设置的标题收录文字。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将文章 别名更改为英文或拼音。
8.3 自动添加标签
简单标签
WordPress fat mouse采集 插件自带自动标注功能。如果觉得不好用,可以使用WP自动标签插件Simple Tags为你的文章自动生成标签,自动添加链接地址等。
8.4 自动设置特*敏*感*词*片
快速精选图片
快速精选图片可以帮助您设置精选图片以自动发布采集和文章。
九、WP 自动采集和自动发布
插件:
WordPress fat mouse采集 插件可以设置自动采集 频率。
WordPress Fat Mouse采集 插件也可以设置自动发布间隔。
如果要更改自动采集和自动发布的时间,可以使用WP Crontrol插件。启用插件后,您应该可以看到 WordPress网站 上发生的所有“定时任务”。
点击编辑定时任务(Wordpress fat mouse采集插件定时任务以fc开头),这里可以设置自动采集和自动发布时间。
十、Summary
WordPress fat mouse采集插件功能非常强大,只要你想让采集的页面不是ajax,就可以使用Wordpress fat mouse采集插件自动采集和发布文章,为了防止被引擎搜索发现还可以替换链接、关键字,在页面前后插入某些内容,形成“伪原创”。
WordPress胖鼠采集插件目前没有监控功能,即某网站内容更新后,实际上无法跳转到采集。我们可以用规则写进去,一般来说第一篇文章就是最近更新的文章。这时候我们可以将采集的范围缩小到第一个H2区域。写法如下:
#cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2
文章From: Diazhan 不,保留所有权利。本站文章除出处外均为作者原创文章,可自由引用,但请注明出处。部分内容引用自: