最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

优采云 发布时间: 2022-11-20 07:21

  最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

  WordPress最初是一个博客,但由于其强大的功能和众多的用户,Wordpress现在已经成为一个CMS平台。有的公司甚至用Wordpress建站,真是无处不在。Wordpress 用于采集

和构建网站。一直做垃圾站的朋友用了很久。

  一是Wordpress本身SEO做的不错,有利于搜索引擎收录和SEO排名;另一方面,Wordpress 也有很多强大的插件。使用Wordpress采集

插件不需要复杂的配置,新手也可以搭建一个每天自动采集

发布的网站,贴上一些小广告“坐享其成”。

  WordPress采集

插件有很多,但基本上都是付费的。本文主要是分享新的Wordpress采集

插件——肥鼠采集

,开源免费。它支持所有网站列表详细信息页面。具有自动批量采集榜单、自动发布、自动打标签等功能,可用于采集微信公众号、简书等各类网站。

  关于自动化采集采集信息,大家还可以看看:

  1.WP胖鼠合集插件安装

  插件:

  WordPress肥鼠采集插件推荐使用PHP 7。如果你的PHP版本低于PHP7,请移步肥鼠合集的Github下载。使用肥鼠v5版本分支名:based_php_5.6,系统要求如下:

  PHP >= 5.6

  查询列表 v4

  Mysql 没有要求

  Nginx 没有要求

  WordPress肥鼠采集插件主要功能如下:

  微信公众号文章合集、简书文章合集、列表页文章批量合集。

  详情页采集

文章,分页爬取——历史数据,绝不放过。

  自动采集

、自动发布、自动添加文章动态内容优化SEO。

  自动标注Auto Tags,文章过滤,自动精选图片。

  内容关键字过滤取代任何网站的伪原创、自定义集合。

  WordPress肥鼠采集插件主要有以下几个部分:

  ① 爬虫模块,先锋配置模块各种特性配置,用于猎取数据。

  ②配置模块,支持爬虫模块给他提供采集规则的核心能量。

  ③数据模块,数据模块具有胖老鼠的各种特征。

  安装好Wordpress肥鼠采集

插件后,如下图所示:

  二、WP胖鼠采集

插件操作

  您可以在采集

中心开始采集

文章。Wordpress肥鼠采集插件分为列表采集和详情采集。列表采集可以批量采集某个网站,明细采集是采集某个页面。

  采集完成后,可以到数据中心查看采集到的文章,点击此处发布。(点击放大)

  WordPress胖老鼠采集

插件对采集

和发布文章有很好的效果。

  这是Wordpress肥鼠采集

插件收录文章的详情页,完整收录了本站文章。

  3.WP肥鼠收微信公众号

  

" />

  然后在“采集

中心”填写微信公众号文章的网址。可以批量添加多个网址,点击领取。

  采集完成后,您可以发布采集到的微信公众号文章。如下所示:

  4.WP肥鼠采集

简书知乎 5.任意网站WP自定义采集

  WordPress肥鼠采集插件自带的几个配置文件其实就是给我们演示的。真正强大的是我们自定义了Wordpress肥鼠采集插件的采集规则,可以采集任何网站内容(非AJax)。

  在Wordpress肥鼠采集插件中新建一条采集规则。这里我们以文章的集合为例。先命名,选择列表配置(文章比较多,选择本批合集),其他保留如下图:

  然后填写收件地址、范围、收件规则等,如下图所示:

  一般来说,采集规则需要测试多次才能成功,所以在创建新规则之前,我们先打开插件的Debug模式,在Chrome浏览器审核元素的网络栏查看具体结果。

  采集

范围是wordpress胖老鼠采集

插件要采集

的url列表。首页最新文章标题均以H2+URL形式嵌套(点击放大)。

  所以我这里填写的是采集范围:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径不用自己手动检查,并且可以直接在chrome中查看,在元素底部可以看到,注意上图。

  在list集合规则中写:a:eq(0) href,href表示选取a标签(即URL)的href属性,我们使用Jquery的eq语法a:eq(0)表示取第一个a 在 H2 区。注意:如果目标站链接是相对链接,代码从0开始(只有一个a标签只能填a)。该程序将自动完成。

  在Debgu模式下,我们可以看到首页最新文章栏下的所有文章的URL地址都已经获取到了。

  上面我们采集

了列表下的所有网址,接下来我们需要采集

该网址下的文章内容。打开某篇文章,发现标题在.title-post中,文章内容在.the-content中。标题和内容都在 .single-post-box 下。

  标题。现在我们可以写出采集标题的规则,范围为.single-post-box,选择器为.title-post,属性为text。

  在Debug模式下,可以看到我们已经成功获取到了文章的标题。

  内容。采集

内容的规则写成:作用域为.single-post-box,选择器为.the-content,属性为html。文章内容成功获取如下。

  最后,采集

最新文章栏下所有文章的规则如下:(点击放大)

  6.WP自定义采集

成功效果

  在采集中心,点击我们刚刚配置的列表采集配置。

  一段时间后,Wordpress 胖老鼠采集

插件会采集

所有最新的文章。

  点击发布,采集

成功。

  七、WP自定义采集规则问题

  WordPress肥鼠采集插件需要三个参数:

  link 采集

链接一般取a标签的href属性

  title 标题一般取详情页h1标签的text文本属性

  content 内容一般在详情页的.content标签中带html属性。

  WordPress肥鼠采集插件的属性解释如下:

  href基本上就是指a标签的href属性(这个属性存放的是点击后的跳转地址)

  text 获取区域的文本,一般用于标题

  

" />

  html 抓取区的所有html一般都是用来抓取内容的,内容很多。并且内容在布局中有很多图片css js。所以要获取所有原创

html

  :first, :last, :odd等几个jQuery选择器在下面的内容过滤中非常有用,大家可以熟悉一下。

  八、WP胖鼠合集优化方法

  文本内容中收录

作者信息、广告、版权声明等无用信息,我们需要从文本内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:

  a是去掉区域内所有a标签的跳转功能。保留文本。

  -a 删除a标签包括删除a标签中收录

的内容(不推荐,因为有些图片在a中,a中的图片被删除。)

  -div 删除所有div

  -p 同上

  -b 同上

  -跨度同上

  -p:首先删除第一个p标签

  -p:last 删除最后一个p标签

  -p:eq(-2) 删除最后两个p

  -p:eq(2) 删除正两个p

  比如我写的过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first,意思是删除#ftwp-container -outer, #sociables, .uc-favorite-2.uc-btn 三个div的内容,同样删除最后一个p和第一个ol列表。

  Wenprise 拼音弹头

  简单标签

  WordPress肥鼠采集插件内置自动标签功能。如果觉得不好用,可以使用WP自动标签插件Simple Tags,为你的文章自动生成标签,自动添加链接地址等。

  快速精选图片

  九、WP自动收款自动发布

  插件:

  WordPress肥鼠采集插件可以设置自动采集频率。

  WordPress肥鼠合集插件还可以设置自动发布间隔。

  点击编辑定时任务(Wordpress肥鼠采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。

  10.总结

  WordPress胖老鼠采集插件非常强大。只要你要采集的页面不是Ajax的,都可以使用Wordpress肥鼠采集插件自动采集发布文章。为了防止被搜索引擎发现,还可以在页面前后替换链接和关键词插入某些内容,形成“伪原创”。

  WordPress肥鼠采集插件目前没有监控功能,即不能在某个网站内容更新时自动采集。我们可以用规则写进去,一般来说,第一篇文章就是最近更新的文章。这时候,我们可以把采集范围缩小到第一个H2区域,写法如下:

  #cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2

  解决方案:python优秀源码新闻系统_[内附完整源码和文档] 基于python的新闻检索

  1 系统介绍

  1.1 系统要求

  新闻检索系统:直接采集不少于4个中国社会新闻网站或频道,实现对这些网站的新闻信息、评论信息的自动抓取、提取、索引和检索。本项目没有使用lucene、Goose等成熟的开源框架。

  1.2 系统思路与框架

  系统整体实现思路如图1所示:

  一个完整的搜索系统的主要步骤是:

  抓取新闻网页获取语料库

  提取新闻的主要内容,得到结构化的xml数据

  基于内存的单遍扫描索引构造方法构造倒排索引供检索模块使用

  用户输入查询,相关文档返回给用户

  

" />

  2 设计方案

  2.1 新闻爬取

  2.1.1 算法简述

  本模块获取搜狐、网易、腾讯三大主流新闻网站和官方参考新闻网站的新闻。并根据其网站结构,设计了不同的爬取模式。由于网站架构成对相似,故选取以下两类典型代表进行介绍:

  (2) 网易新闻

  网易新闻和腾讯新闻可以归结为一般类型的新闻首页,我们采用的是从新闻首页开始的广度优先递归爬取策略。我们注意到新闻的正文页面往往是静态网页.html,所以我们记录网页上出现的所有以.html结尾的网页的url,爬到一定量的时候去重一次。

  对于一些不是新闻的误分类网页,容错是检查新闻文本标签

  将被删除。

  在新闻正文页面,我们重点关注内容、时间、评论获取。

  2.1.2 创新点

  实现新闻网页动态加载评论的爬取,如搜狐新闻评论的爬取

  

" />

  没有借助开源的新闻爬取工具,实现了新闻标题、正文、时间、评论内容、评论数的高效爬取

  2.2 索引构建

  分词,我们使用开源的jieba中文分词组件来完成,jieba分词可以将一个中文句子切割成词项,这样就可以统计tf,df

  去停用词,jieba分词后去停用词的步骤就完成了

  发帖记录表存储,字典采用B-tree或hash存储,发帖记录表采用邻接链表存储,可大大减少存储空间

  倒排索引构建算法采用内存中单遍扫描索引构建方法(SPIMI),即依次对每篇新闻文章进行切分。如果出现新词,则将其插入词典;否则,文档的信息将被添加到相应的术语中。在 的 postings 表中。

  2.3 检索模块

  2.3.1 检索方式

  (1) 关键词搜索

  查询是根据用户输入的关键字返回相应的新闻。首先,jieba根据用户查询进行分词,将分词后的词条数记录下来,以字典的形式存储。

  完整的源码和详细的文档已经上传到WRITE-BUG技术分享平台,需要的请自取:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线