最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

优采云发布时间: 2022-11-20 07:21

　　最新版:WordPress胖鼠

" target="_blank">采集插件教程-WP自动采集和发布微信公众号,简书

　　WordPress最初是一个博客，但由于其强大的功能和众多的用户，Wordpress现在已经成为一个CMS平台。有的公司甚至用Wordpress建站，真是无处不在。Wordpress 用于采集

和构建网站。一直做垃圾站的朋友用了很久。

　　一是Wordpress本身SEO做的不错，有利于搜索引擎收录和SEO排名；另一方面，Wordpress 也有很多强大的插件。使用Wordpress采集

插件不需要复杂的配置，新手也可以搭建一个每天自动采集

发布的网站，贴上一些小广告“坐享其成”。

　　WordPress采集

插件有很多，但基本上都是付费的。本文主要是分享新的Wordpress采集

插件——肥鼠采集

，开源免费。它支持所有网站列表详细信息页面。具有自动批量采集榜单、自动发布、自动打标签等功能，可用于采集微信公众号、简书等各类网站。

　　关于自动化采集采集信息，大家还可以看看：

　　1.WP胖鼠合集插件安装

　　插件：

　　WordPress肥鼠采集插件推荐使用PHP 7。如果你的PHP版本低于PHP7，请移步肥鼠合集的Github下载。使用肥鼠v5版本分支名：based_php_5.6，系统要求如下：

　　PHP >= 5.6

　　查询列表 v4

　　Mysql 没有要求

　　Nginx 没有要求

　　WordPress肥鼠采集插件主要功能如下：

　　微信公众号文章合集、简书文章合集、列表页文章批量合集。

　　详情页采集

文章，分页爬取——历史数据，绝不放过。

　　自动采集

、自动发布、自动添加文章动态内容优化SEO。

　　自动标注Auto Tags，文章过滤，自动精选图片。

　　内容关键字过滤取代任何网站的

" target="_blank">伪原创、自定义集合。

　　WordPress肥鼠采集插件主要有以下几个部分：

　　① 爬虫模块，先锋配置模块各种特性配置，用于猎取数据。

　　②配置模块，支持爬虫模块给他提供采集规则的核心能量。

　　③数据模块，数据模块具有胖老鼠的各种特征。

　　安装好Wordpress肥鼠采集

插件后，如下图所示：

　　二、WP胖鼠采集

插件操作

　　您可以在采集

中心开始采集

文章。Wordpress肥鼠采集插件分为列表采集和详情采集。列表采集可以批量采集某个网站，明细采集是采集某个页面。

　　采集完成后，可以到数据中心查看采集到的文章，点击此处发布。（点击放大）

　　WordPress胖老鼠采集

插件对采集

和发布文章有很好的效果。

　　这是Wordpress肥鼠采集

插件收录文章的详情页，完整收录了本站文章。

　　3.WP肥鼠收微信公众号

" />

　　然后在“采集

中心”填写微信公众号文章的网址。可以批量添加多个网址，点击领取。

　　采集完成后，您可以发布采集到的微信公众号文章。如下所示：

　　4.WP肥鼠采集

简书知乎 5.任意网站WP自定义采集

　　WordPress肥鼠采集插件自带的几个配置文件其实就是给我们演示的。真正强大的是我们自定义了Wordpress肥鼠采集插件的采集规则，可以采集任何网站内容（非AJax）。

　　在Wordpress肥鼠采集插件中新建一条采集规则。这里我们以文章的集合为例。先命名，选择列表配置（文章比较多，选择本批合集），其他保留如下图：

　　然后填写收件地址、范围、收件规则等，如下图所示：

　　一般来说，采集规则需要测试多次才能成功，所以在创建新规则之前，我们先打开插件的Debug模式，在Chrome浏览器审核元素的网络栏查看具体结果。

　　采集

范围是wordpress胖老鼠采集

插件要采集

的url列表。首页最新文章标题均以H2+URL形式嵌套（点击放大）。

　　所以我这里填写的是采集范围：#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2，这个路径不用自己手动检查，并且可以直接在chrome中查看，在元素底部可以看到，注意上图。

　　在list集合规则中写：a:eq(0) href，href表示选取a标签（即URL）的href属性，我们使用Jquery的eq语法a:eq(0)表示取第一个a 在 H2 区。注意：如果目标站链接是相对链接，代码从0开始（只有一个a标签只能填a）。该程序将自动完成。

　　在Debgu模式下，我们可以看到首页最新文章栏下的所有文章的URL地址都已经获取到了。

　　上面我们采集

了列表下的所有网址，接下来我们需要采集

该网址下的文章内容。打开某篇文章，发现标题在.title-post中，文章内容在.the-content中。标题和内容都在 .single-post-box 下。

　　标题。现在我们可以写出采集标题的规则，范围为.single-post-box，选择器为.title-post，属性为text。

　　在Debug模式下，可以看到我们已经成功获取到了文章的标题。

　　内容。采集

内容的规则写成：作用域为.single-post-box，选择器为.the-content，属性为html。文章内容成功获取如下。

　　最后，采集

最新文章栏下所有文章的规则如下：（点击放大）

　　6.WP自定义采集

成功效果

　　在采集中心，点击我们刚刚配置的列表采集配置。

　　一段时间后，Wordpress 胖老鼠采集

插件会采集

所有最新的文章。

　　点击发布，采集

成功。

　　七、WP自定义采集规则问题

　　WordPress肥鼠采集插件需要三个参数：

　　link 采集

链接一般取a标签的href属性

　　title 标题一般取详情页h1标签的text文本属性

　　content 内容一般在详情页的.content标签中带html属性。

　　WordPress肥鼠采集插件的属性解释如下：

　　href基本上就是指a标签的href属性（这个属性存放的是点击后的跳转地址）

　　text 获取区域的文本，一般用于标题

" />

　　html 抓取区的所有html一般都是用来抓取内容的，内容很多。并且内容在布局中有很多图片css js。所以要获取所有原创

html

　　:first, :last, :odd等几个jQuery选择器在下面的内容过滤中非常有用，大家可以熟悉一下。

　　八、WP胖鼠合集优化方法

　　文本内容中收录

　　a是去掉区域内所有a标签的跳转功能。保留文本。

　　-a 删除a标签包括删除a标签中收录

的内容（不推荐，因为有些图片在a中，a中的图片被删除。）

　　-div 删除所有div

　　-p 同上

　　-b 同上

　　-跨度同上

　　-p:首先删除第一个p标签

　　-p:last 删除最后一个p标签

　　-p:eq(-2) 删除最后两个p

　　-p:eq(2) 删除正两个p

　　比如我写的过滤规则：-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first，意思是删除#ftwp-container -outer, #sociables, .uc-favorite-2.uc-btn 三个div的内容，同样删除最后一个p和第一个ol列表。

　　Wenprise 拼音弹头

　　简单标签

　　WordPress肥鼠采集插件内置自动标签功能。如果觉得不好用，可以使用WP自动标签插件Simple Tags，为你的文章自动生成标签，自动添加链接地址等。

　　快速精选图片

　　九、WP自动收款自动发布

　　插件：

　　WordPress肥鼠采集插件可以设置自动采集频率。

　　WordPress肥鼠合集插件还可以设置自动发布间隔。

　　点击编辑定时任务（Wordpress肥鼠采集插件定时任务以fc开头），这里可以设置自动采集和自动发布的时间。

　　10.总结

　　WordPress胖老鼠采集插件非常强大。只要你要采集的页面不是Ajax的，都可以使用Wordpress肥鼠采集插件自动采集发布文章。为了防止被搜索引擎发现，还可以在页面前后替换链接和关键词插入某些内容，形成“伪原创”。

　　WordPress肥鼠采集插件目前没有监控功能，即不能在某个网站内容更新时自动采集。我们可以用规则写进去，一般来说，第一篇文章就是最近更新的文章。这时候，我们可以把采集范围缩小到第一个H2区域，写法如下：

　　#cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2

　　解决方案:python优秀源码新闻系统_[内附完整源码和文档] 基于python的新闻检索

　　1 系统介绍

　　1.1 系统要求

　　新闻检索系统：直接

" target="_blank">采集不少于4个中国社会新闻网站或频道，实现对这些网站的新闻信息、评论信息的自动抓取、提取、索引和检索。本项目没有使用lucene、Goose等成熟的开源框架。

　　1.2 系统思路与框架

　　系统整体实现思路如图1所示：

　　一个完整的搜索系统的主要步骤是：

　　抓取新闻网页获取语料库

　　提取新闻的主要内容，得到结构化的xml数据

　　基于内存的单遍扫描索引构造方法构造倒排索引供检索模块使用

　　用户输入查询，相关文档返回给用户

" />

　　2 设计方案

　　2.1 新闻爬取

　　2.1.1 算法简述

　　本模块获取搜狐、网易、腾讯三大主流新闻网站和官方参考新闻网站的新闻。并根据其网站结构，设计了不同的爬取模式。由于网站架构成对相似，故选取以下两类典型代表进行介绍：

　　(2) 网易新闻

　　网易新闻和腾讯新闻可以归结为一般类型的新闻首页，我们采用的是从新闻首页开始的广度优先递归爬取策略。我们注意到新闻的正文页面往往是静态网页.html，所以我们记录网页上出现的所有以.html结尾的网页的url，爬到一定量的时候去重一次。

　　对于一些不是新闻的误分类网页，容错是检查新闻文本标签

　　将被删除。

　　在新闻正文页面，我们重点关注内容、时间、评论获取。

　　2.1.2 创新点

　　实现新闻网页动态加载评论的爬取，如搜狐新闻评论的爬取

" />

　　没有借助开源的新闻爬取工具，实现了新闻标题、正文、时间、评论内容、评论数的高效爬取

　　2.2 索引构建

　　分词，我们使用开源的jieba中文分词组件来完成，jieba分词可以将一个中文句子切割成词项，这样就可以统计tf,df

　　去停用词，jieba分词后去停用词的步骤就完成了

　　发帖记录表存储，字典采用B-tree或hash存储，发帖记录表采用邻接链表存储，可大大减少存储空间

　　倒排索引构建算法采用内存中单遍扫描索引构建方法（SPIMI），即依次对每篇新闻文章进行切分。如果出现新词，则将其插入词典；否则，文档的信息将被添加到相应的术语中。在的 postings 表中。

　　2.3 检索模块

　　2.3.1 检索方式

　　(1) 关键词搜索

　　查询是根据用户输入的关键字返回相应的新闻。首先，jieba根据用户查询进行分词，将分词后的词条数记录下来，以字典的形式存储。

　　完整的源码和详细的文档已经上传到WRITE-BUG技术分享平台，需要的请自取：

0

2022-11-20

无需规则自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

0 个评论

发起人

AI时代内容工厂

最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

0 个评论

发起人

相关问题