自动采集文章网站(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))
优采云 发布时间: 2022-04-13 10:02自动采集文章网站(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))
WordPress原本是一个博客,但由于其强大的功能和众多的用户,WordPress已经成为了一个cms平台,一些公司甚至使用WordPress来建站,这真是无处不在。采集建筑工地用wordpress,一直在做垃圾站的朋友都在用。
一方面,Wordpress本身的SEO相当不错,有利于搜索引擎收录和SEO排名;好复杂的配置,新手也能搭建一个网站自动采集,每天自动发布,放个小广告“坐享其成”。
WordPress采集的插件很多,但基本上都是付费的。本文文章主要是分享WordPress新版采集插件-胖鼠标采集,开源免费,支持所有网站列表详情页,有以下功能批量自动采集、自动发布、自动标注等。可用于采集微信公众号、短书等各种网站。
关于采集信息的采集和自动化,还可以看:
用Huginn抢任意网站RSS和微信公众号更新——搭建一站式信息阅读平台自建RSS阅读器Tiny Tiny RSS安装配置自动更新、全文RSS、换主题、手机RSS登录VPS主机库存发货监控及微信\TG通知系统:VPS-Inventory-Monitoring安装配置
PS:2020年3月23日更新,好插件也需要好主题,国外WordPress主题市场比较成熟,大家可以试试:WordPress付费主题平台AppThemes:主题购买、安装、升级及问题。
一、WP胖鼠标采集插件安装
插入:
WordPress Fat Mouse 采集 插件推荐使用 PHP 7。如果您的 PHP 版本低于 PHP7,请从 Fat Mouse 采集 的 Github 下载并使用 Fat Mouse v5。分支名称: based_php_5.6 ,系统要求如下:
PHP >= 5.6
查询列表 v4
mysql不需要
Nginx 没有要求
WordPress Fat Mouse 采集插件的主要功能如下:
微信公众号文章采集,简书文章采集,列表页文章批量采集。
详情页文章采集,分页爬取——历史数据,别放过。
自动采集,自动发布,文章自动添加动态内容优化SEO。
自动标记自动标记,文章 过滤,自动精选图像。
内容关键字过滤替换 伪原创 ,自定义 采集any网站 。
WordPress Fat Mouse 采集 插件主要有以下几个部分:
①爬虫模块,Pioneer配置模块的各种特色配置,用于搜寻数据。
② 配置模块,支持爬虫模块为他提供采集规则核心能量。
③ 数据模块,数据 该模块具有胖鼠的各种特色发布功能。
安装Wordpress Fat Mouse 采集插件后,如下图所示:
二、WP胖鼠标采集插件操作2.1配置中心
在 WP Fat Mouse 采集 插件配置中心,已经配置了 采集 规则。Wordpress Fat Mouse 采集插件自带几个配置,可以先点击导入。(点击放大)
2.2 采集中心
在采集中心,可以启动采集文章,Wordpress胖鼠标采集插件分为list采集和details采集, list采集可以批量采集某个网站,详情采集是采集的某个页面。
2.3 数据中心
采集完成后可以到数据中心查看已经采集到的文章,点击这里发布。(点击放大)
WordPress Fat Mouse 采集Plugins采集 和 Publishing文章 运行良好。
这是Wordpress胖鼠标采集插件采集文章的详情页,完全把网站的文章采集带过来了。
三、WP胖鼠采集微信公众号
WordPress的采集微信公众号的文章也很简单,先找到你想要的采集的微信公众号文章。
然后在“采集中心”填写微信公众号文章的网址,支持批量添加多个网址,点击采集。
采集完成后,即可从采集发布微信公众号文章。如下所示:
四、WP胖老鼠采集小册子知乎
WordPress采集简书、知乎等类似上面的采集微信公众号文章,直接输入网址采集即可。
五、WP 自定义采集任何网站
WordPress Fat Mouse 采集 插件自带的几个配置文件其实是给我们演示的。真正的力量是我们自己定制的 Wordpress Fat Mouse 采集plugin采集rules,采集Any网站Content (non-AJax)。
5.1 新 采集 规则
在Wordpress Fat Mouse 采集插件中新建采集规则,这里以采集文章为例,先命名,选择列表配置(文章@ > 很多,选择这个Batch 采集),其他的保持如下图:
然后填写采集地址、范围、采集规则等,如下图:
一般来说,采集规则需要多次测试才能成功,所以在创建新规则之前,我们先开启插件的Debug模式,具体结果在Chrome的网络一栏查看浏览器元素。
5.2 列表采集规则
采集 范围是 Wordpress Fat Mouse 采集 插件 采集 所需的 URL 列表。首页最新的文章标题以H2+URL的形式嵌套(点击放大)。)。
所以我这里填写采集的范围:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径不需要手动完成。你可以直接在Chrome评论元素底部看到,注意上图。
在列表采集规则中写:a:eq(0) href,href表示选择a标签的href属性(即URL),我们使用jquery的eq语法a:eq( 0) 表示取H2区域的第一个a 注意:代码从0开始(只有一个a标签只能填a),如果目标站链接是相对链接,程序会自动完成。
在Debgu模式下,我们可以看到我们已经获取到了首页最新的文章栏下所有文章的URL地址。
5.3 细节采集规则
上面我们有采集列表下的所有URL,那么我们需要采集该URL下文章的内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。并且标题和内容都在 .single-post-box 下。
标题。现在我们可以为采集标题写规则如下:范围是.single-post-box,选择器是.title-post,属性是文本。
在 Debug 模式下,我们可以看到我们成功获取了 文章 标题。
内容。采集内容规范写成:范围是.single-post-box,选择器是.the-content,属性是html。文章的内容成功获取如下。
最后,采集Latest文章栏下的所有文章规则如下:(点击放大)
六、WP定制采集成功效果
在采集中心,点击我们刚刚配置的列表采集config。
稍等片刻,Wordpress Fat Mouse 采集 插件就会把最新的文章all采集 带过来。
点击发布,采集成功。
七、WP 自定义采集规则问题7.1 参数和属性
WordPress Fat Mouse 采集 插件需要三个参数:
link 采集链接一般取a标签的href属性
title 标题一般取详情页h1标签的text属性
内容内容一般采用详情页的 .content 标签中的 html 属性。
WordPress Fat Mouse 采集 插件属性解释如下:
href基本是指a标签的href属性(这个属性存放的是点击后的跳转地址)
text 取区域的文本,一般用于标题
html fetch区的所有html一般都是用来获取内容的,内容比较多。而且内容有布局,image css js里有很多东西。所以要获取所有原创的html
7.2 个 jQuery 选择器
:first、:last、:odd 等几个 jQuery 选择器在下面的内容过滤中非常有用,大家可以熟悉一下。
八、WP胖鼠采集优化方法8.1 内容过滤
正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:
a是去掉区域内所有的a标签跳转功能。保留文字。
-a 删除a标签包括删除a标签中收录的内容(不推荐,因为a中删除了一些图片,a中的图片就没有了。)
-div 删除所有 div
-p 同上
-b 同上
-span 如上
-p:先删除第一个p标签
-p:last 删除最后一个 p 标签
-p:eq(-2) 删除最后两个p
-p:eq(2) 删除正二p
比如我写的过滤规则: -div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first ,意思是删除#ftwp -container -outer, #sociables, .uc-favorite-2.uc-btn 三个Div的内容,同样删除最后一个P和第一个ol列表。
8.2 URL 自动转换成拼音
Wenprise 拼音蛞蝓
WordPress Fat Mouse 采集 插件设置的标题收录文本。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将 文章 别名更改为英文或拼音。
文章3@>
8.3 自动添加标签
简单标签
WordPress Fat Mouse 采集 插件有自己的自动标记功能。如果你觉得不好用,可以使用 WP 自动标签插件 Simple Tags 为你的文章自动生成标签,自动添加链接地址等。
文章5@>
8.4 自动设置特*敏*感*词*片
快速精选图片
Quick Featured Images 帮助您为自动 采集 和发布的 文章 设置特*敏*感*词*像。
文章7@>
文章8@>WP Auto采集 和 AutoPublish
插入:
WordPress Fat Mouse 采集 插件可以设置自动采集 频率。
文章9@>
WordPress Fat Mouse 采集 插件还可以设置自动发布间隔。
要更改自动采集 和自动发布的时间,您可以使用 WP Crontrol 插件,启用该插件后,应该能够看到 WordPress网站 上发生的所有“歪曲任务”。
点击编辑定时任务(Wordpress胖鼠标采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。
十、总结
WordPress Fat Mouse 采集插件很强大,只要你要采集的页面不是Ajax,就可以使用WordPress Fat Mouse采集插件自动采集@ >并发布文章,为了防止被搜索引擎发现,还可以替换链接和关键字,在页面前后插入一定的内容,形成“伪原创”。
WordPress Fat Mouse 采集 插件目前没有监控功能,即无法在某个网站 内容更新时自动跳转到采集。我们可以用规则写进去。一般来说,第一篇文章就是最近更新的文章。这时候我们可以把采集的范围缩小到第一个H2区域,写成如下:
#cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2
文章发件人:Dug Station No,保留所有权利。本站文章为作者原创文章除非注明出处,可自由引用,但请注明出处。部分内容引用自:.