一下新出采集插件-胖鼠采集操作插件建议(组图)
优采云 发布时间: 2021-08-12 19:13一下新出采集插件-胖鼠采集操作插件建议(组图)
WordPress原本是一个博客,但由于其强大的功能和众多的用户,使得Wordpress成为了cms平台。一些公司甚至使用 Wordpress 来建立他们的网站,这真的无处不在。 Wordpress for 采集建站已经被垃圾站的朋友用过。
一方面,Wordpress自身的SEO非常好,有利于搜索引擎收录和SEO排名;另一方面,Wordpress 有很多强大的插件。使用Wordpress采集插件不需要太多。对于复杂的配置,新手也可以每天搭建一个自动采集和自动发布网站,放一些小广告来“赚一笔”。
WordPress采集插件很多,但基本都是付费的。本文章主要是分享新的Wordpress采集插件-胖鼠采集,开源免费,支持网站所有@List详情页,具有批量自动采集、自动发布、自动标注等,可用于采集微信公众号、短书等网站。
一、WP胖鼠采集插件安装
插件:
WordPress Fat Mouse采集插件推荐使用PHP 7。如果您的PHP版本低于PHP7,请到Fat Mouse采集的Github下载Fat Mouse v5版本。分支名称:based_php_5.6,系统需求如下:
PHP >= 5.6
QueryList v4 版本
Mysql 无要求
Nginx 无要求
WordPress Fat Mouse采集插件的主要功能如下:
微信公众号文章采集、简书文章采集、列表页文章batch采集.
详情页文章采集,分页爬取——历史数据,不要放过。一键搞定
自动采集,自动发布,文章自动添加动态内容优化SEO。
自动标签、文章filtering、自动精选图片。
WordPress Fat Mouse采集插件主要有以下几个部分:
① Crawler 模块,Pioneer 配置模块的各种功能来搜索数据。
②配置模块,支持爬虫模块为他提供采集rule核心能量。
③数据模块,数据该模块具有胖鼠的各种特性发布功能。
安装Wordpress fat mouse采集插件后,显示如下图:
二、WP 胖鼠采集插件操作
2.1 配置中心
在WP Fat Mouse采集plugin配置中心,已经配置了采集规则。 Wordpress Fat Mouse采集 插件自带几个配置,可以先点击导入。 (点击放大)
2.2 采集中心
您可以在采集中心启动采集文章。 Wordpress胖鼠标采集插件分为列表采集和详细信息采集,列表采集可以批量采集某一个网站,详细信息采集是采集某个页面。
2.3 数据中心
采集完成后,可以去数据中心查看已经采集的文章,可以点击这里发布。 (点击放大)
WordPress fat mouse采集plugin采集 和发布文章 仍然有效。
这是Wordpress fat mouse采集plugin采集文章的详细页面,这里是网站的完整文章采集。
三、WP胖鼠采集微信公号
WordPress采集微信公号的文章也很简单,先找到你想要的微信公众号文章采集。
然后在“采集中心”填写微信公众号文章的网址,可以批量添加多个网址,点击采集。
采集完成后,可以发布采集过来的微信公众号文章。如下图:
四、WP 胖鼠采集简书知乎
WordPress采集简书、知乎等类似上面的采集微信公号文章,直接输入网址到采集即可。
五、WPCustom采集any网站
WordPress fat mouse采集 插件自带几个配置文件给我们演示。真正强大的是我们自定义了Wordpress fat mouse采集plugin采集rules, 采集any网站content(不是AJax)。
5.1 新的采集rule
在Wordpress fat mouse采集插件中新建采集规则,这里以采集文章为例,先命名,选择列表配置(文章多,选择这批采集),其他保留下图:
然后填写采集地址、范围、采集规则等,如下图:
一般来说采集规则需要多次测试才能成功,所以在新建规则之前,我们先打开插件的Debug模式,查看具体结果在元素的network列中Chrome 浏览器。
5.2 list采集rule
采集范围是Wordpress fat mouse采集插件到采集的URL列表,首页最新文章的标题以H2+URL的形式嵌套(点击放大).
所以我在这里填写的采集范围是:#cat_all >.news-post.article-post> .row> .col-sm-7> .post-content> h2,这个路径不需要要手动,可以直接在Chrome审核元素底部看到,注意上图。
在列表采集规则中写:a:eq(0)href,href表示选择a标签(即URL)的href属性,我们使用jquery的eq语法a:eq(0)表示取H2区的第一个a。注:代码从0开始(a标签只能填一个a),如果目标站链接是相对链接,程序会自动补全。<//p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p在Debgu模式下,可以看到首页最新文章列下文章的URL地址全部都已经获取到了。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p5.3 details采集rules/p
p我们有采集上面列表中的所有网址,然后我们需要网址采集下的文章内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。标题和内容都在.single-post-box下。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p标题。现在我们可以把采集title的规则写成这样:scope是.single-post-box,选择器是.title-post,属性是text。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p在Debug模式下,可以看到我们成功获取了文章title。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p内容。 采集内容写成:作用域为.single-post-box,选择器为.the-content,属性为html。获取文章内容如下。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p最后采集新文章栏下的所有文章规则如下:(点击放大)/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p六、WPCustom 采集成功效果/p
p在采集中心,点击我们刚刚配置的列表采集configuration。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p稍等,Wordpress Fat Mouse采集 插件会带来最新的文章all采集。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p点击发布,采集成功。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p七、WPCustom 采集rule 问题/p
p7.1 参数和属性/p
pWordPress fat mouse采集 插件需要三个参数:/p
plink 采集 通常采用 a 标签的 href 属性/p
ptitle title一般取详情页h1标签的text属性/p
pcontent 一般取自详情页的 .content 标签中的 html 属性。/p
pWordPress fat mouse采集插件属性解释如下:/p
phref 基本上是指a标签的href属性(该属性存储点击后的跳转地址)/p
ptext 取区域的文字,一般用于标题/p
phtml抓取区域的所有html一般都是用来抓取内容的,内容比较多。并且内容有很多像image css js 排版的东西。所以得到所有的原创html/p
p7.2 jQuery 选择器/p
p几个jQuery选择器如:first、:last、:odd等在下面的内容过滤中非常有用,你可以熟悉它们。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p八、WP胖鼠采集优化方法/p
p8.1 内容过滤/p
p正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:/p
pa 是去掉 a 区域内所有的标签跳转功能。保留文字。/p
p-a 删除a标签,包括删除a标签中收录的内容(不推荐,因为有些图片在a中。删除a中的图片就消失了。)/p
p-div 删除所有 div/p
p-p 同上/p
p-b 同上/p
p-span 同上/p
p-p:先删除第一个p标签/p
p-p:last 删除最后一个 p 标签/p
p-p:eq(-2)删除倒数第二个p/p
p-p:eq(2)删除正数二p/p
p比如我写的过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first,意思是删除#ftwp-container-outer、#sociables、.uc-favorite-2.uc-btn这三个Div的内容,最后一个P和第一个ol列表也删除了。/p
p8.2 URL自动转拼音/p
pWenprise 拼音 Slug/p
pWordPress fat mouse采集 插件设置的标题收录文字。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将文章 别名更改为英文或拼音。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p8.3 自动添加标签/p
p简单标签/p
pWordPress fat mouse采集 插件自带自动标注功能。如果觉得不好用,可以使用WP自动标签插件Simple Tags为你的文章自动生成标签,自动添加链接地址等。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p8.4 自动设置特*敏*感*词*片/p
p快速精选图片/p
p快速精选图片可以帮助您设置精选图片以自动发布采集和文章。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p九、WP 自动采集和自动发布/p
p插件:/p
pWordPress fat mouse采集 插件可以设置自动采集 频率。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
pWordPress Fat Mouse采集 插件也可以设置自动发布间隔。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p如果要更改自动采集和自动发布的时间,可以使用WP Crontrol插件。启用插件后,您应该可以看到 WordPress网站 上发生的所有“定时任务”。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p点击编辑定时任务(Wordpress fat mouse采集插件定时任务以fc开头),这里可以设置自动采集和自动发布时间。/p
pimg src='https://www.rvich.com/archives/634.html' alt='634.html'//p
p十、Summary/p
pWordPress fat mouse采集插件功能很强大,只要你想让采集的页面不是ajax,就可以使用Wordpress fat mouse采集插件自动采集和发布文章,为了防止被引擎搜索发现还可以替换链接、关键字,在页面前后插入某些内容,形成“伪原创”。/p
pWordPress胖鼠采集插件目前没有监控功能,即某网站内容更新后,实际上无法跳转到采集。我们可以用规则写进去,一般来说第一篇文章就是最近更新的文章。这时候我们可以将采集的范围缩小到第一个H2区域。写法如下:/p
p#cat_all> div:nth-child(1)> div> div.col-sm-7> div> h2