最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书
优采云 发布时间: 2022-11-20 07:21最新版:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书
WordPress最初是一个博客,但由于其强大的功能和众多的用户,Wordpress现在已经成为一个CMS平台。有的公司甚至用Wordpress建站,真是无处不在。Wordpress 用于采集
和构建网站。一直做垃圾站的朋友用了很久。
一是Wordpress本身SEO做的不错,有利于搜索引擎收录和SEO排名;另一方面,Wordpress 也有很多强大的插件。使用Wordpress采集
插件不需要复杂的配置,新手也可以搭建一个每天自动采集
发布的网站,贴上一些小广告“坐享其成”。
WordPress采集
插件有很多,但基本上都是付费的。本文主要是分享新的Wordpress采集
插件——肥鼠采集
,开源免费。它支持所有网站列表详细信息页面。具有自动批量采集榜单、自动发布、自动打标签等功能,可用于采集微信公众号、简书等各类网站。
关于自动化采集采集信息,大家还可以看看:
1.WP胖鼠合集插件安装
插件:
WordPress肥鼠采集插件推荐使用PHP 7。如果你的PHP版本低于PHP7,请移步肥鼠合集的Github下载。使用肥鼠v5版本分支名:based_php_5.6,系统要求如下:
PHP >= 5.6
查询列表 v4
Mysql 没有要求
Nginx 没有要求
WordPress肥鼠采集插件主要功能如下:
微信公众号文章合集、简书文章合集、列表页文章批量合集。
详情页采集
文章,分页爬取——历史数据,绝不放过。
自动采集
、自动发布、自动添加文章动态内容优化SEO。
自动标注Auto Tags,文章过滤,自动精选图片。
内容关键字过滤取代任何网站的伪原创、自定义集合。
WordPress肥鼠采集插件主要有以下几个部分:
① 爬虫模块,先锋配置模块各种特性配置,用于猎取数据。
②配置模块,支持爬虫模块给他提供采集规则的核心能量。
③数据模块,数据模块具有胖老鼠的各种特征。
安装好Wordpress肥鼠采集
插件后,如下图所示:
二、WP胖鼠采集
插件操作
您可以在采集
中心开始采集
文章。Wordpress肥鼠采集插件分为列表采集和详情采集。列表采集可以批量采集某个网站,明细采集是采集某个页面。
采集完成后,可以到数据中心查看采集到的文章,点击此处发布。(点击放大)
WordPress胖老鼠采集
插件对采集
和发布文章有很好的效果。
这是Wordpress肥鼠采集
插件收录文章的详情页,完整收录了本站文章。
3.WP肥鼠收微信公众号
" />
然后在“采集
中心”填写微信公众号文章的网址。可以批量添加多个网址,点击领取。
采集完成后,您可以发布采集到的微信公众号文章。如下所示:
4.WP肥鼠采集
简书知乎 5.任意网站WP自定义采集
WordPress肥鼠采集插件自带的几个配置文件其实就是给我们演示的。真正强大的是我们自定义了Wordpress肥鼠采集插件的采集规则,可以采集任何网站内容(非AJax)。
在Wordpress肥鼠采集插件中新建一条采集规则。这里我们以文章的集合为例。先命名,选择列表配置(文章比较多,选择本批合集),其他保留如下图:
然后填写收件地址、范围、收件规则等,如下图所示:
一般来说,采集规则需要测试多次才能成功,所以在创建新规则之前,我们先打开插件的Debug模式,在Chrome浏览器审核元素的网络栏查看具体结果。
采集
范围是wordpress胖老鼠采集
插件要采集
的url列表。首页最新文章标题均以H2+URL形式嵌套(点击放大)。
所以我这里填写的是采集范围:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径不用自己手动检查,并且可以直接在chrome中查看,在元素底部可以看到,注意上图。
在list集合规则中写:a:eq(0) href,href表示选取a标签(即URL)的href属性,我们使用Jquery的eq语法a:eq(0)表示取第一个a 在 H2 区。注意:如果目标站链接是相对链接,代码从0开始(只有一个a标签只能填a)。该程序将自动完成。
在Debgu模式下,我们可以看到首页最新文章栏下的所有文章的URL地址都已经获取到了。
上面我们采集
了列表下的所有网址,接下来我们需要采集
该网址下的文章内容。打开某篇文章,发现标题在.title-post中,文章内容在.the-content中。标题和内容都在 .single-post-box 下。
标题。现在我们可以写出采集标题的规则,范围为.single-post-box,选择器为.title-post,属性为text。
在Debug模式下,可以看到我们已经成功获取到了文章的标题。
内容。采集
内容的规则写成:作用域为.single-post-box,选择器为.the-content,属性为html。文章内容成功获取如下。
最后,采集
最新文章栏下所有文章的规则如下:(点击放大)
6.WP自定义采集
成功效果
在采集中心,点击我们刚刚配置的列表采集配置。
一段时间后,Wordpress 胖老鼠采集
插件会采集
所有最新的文章。
点击发布,采集
成功。
七、WP自定义采集规则问题
WordPress肥鼠采集插件需要三个参数:
link 采集
链接一般取a标签的href属性
title 标题一般取详情页h1标签的text文本属性
content 内容一般在详情页的.content标签中带html属性。
WordPress肥鼠采集插件的属性解释如下:
href基本上就是指a标签的href属性(这个属性存放的是点击后的跳转地址)
text 获取区域的文本,一般用于标题
" />
html 抓取区的所有html一般都是用来抓取内容的,内容很多。并且内容在布局中有很多图片css js。所以要获取所有原创
html
:first, :last, :odd等几个jQuery选择器在下面的内容过滤中非常有用,大家可以熟悉一下。
八、WP胖鼠合集优化方法
文本内容中收录
作者信息、广告、版权声明等无用信息,我们需要从文本内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:
a是去掉区域内所有a标签的跳转功能。保留文本。
-a 删除a标签包括删除a标签中收录
的内容(不推荐,因为有些图片在a中,a中的图片被删除。)
-div 删除所有div
-p 同上
-b 同上
-跨度同上
-p:首先删除第一个p标签
-p:last 删除最后一个p标签
-p:eq(-2) 删除最后两个p
-p:eq(2) 删除正两个p
比如我写的过滤规则:-div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first,意思是删除#ftwp-container -outer, #sociables, .uc-favorite-2.uc-btn 三个div的内容,同样删除最后一个p和第一个ol列表。
Wenprise 拼音弹头
简单标签
WordPress肥鼠采集插件内置自动标签功能。如果觉得不好用,可以使用WP自动标签插件Simple Tags,为你的文章自动生成标签,自动添加链接地址等。
快速精选图片
九、WP自动收款自动发布
插件:
WordPress肥鼠采集插件可以设置自动采集频率。
WordPress肥鼠合集插件还可以设置自动发布间隔。
点击编辑定时任务(Wordpress肥鼠采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。
10.总结
WordPress胖老鼠采集插件非常强大。只要你要采集的页面不是Ajax的,都可以使用Wordpress肥鼠采集插件自动采集发布文章。为了防止被搜索引擎发现,还可以在页面前后替换链接和关键词插入某些内容,形成“伪原创”。
WordPress肥鼠采集插件目前没有监控功能,即不能在某个网站内容更新时自动采集。我们可以用规则写进去,一般来说,第一篇文章就是最近更新的文章。这时候,我们可以把采集范围缩小到第一个H2区域,写法如下:
#cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2
解决方案:python优秀源码新闻系统_[内附完整源码和文档] 基于python的新闻检索
1 系统介绍
1.1 系统要求
新闻检索系统:直接采集不少于4个中国社会新闻网站或频道,实现对这些网站的新闻信息、评论信息的自动抓取、提取、索引和检索。本项目没有使用lucene、Goose等成熟的开源框架。
1.2 系统思路与框架
系统整体实现思路如图1所示:
一个完整的搜索系统的主要步骤是:
抓取新闻网页获取语料库
提取新闻的主要内容,得到结构化的xml数据
基于内存的单遍扫描索引构造方法构造倒排索引供检索模块使用
用户输入查询,相关文档返回给用户
" />
2 设计方案
2.1 新闻爬取
2.1.1 算法简述
本模块获取搜狐、网易、腾讯三大主流新闻网站和官方参考新闻网站的新闻。并根据其网站结构,设计了不同的爬取模式。由于网站架构成对相似,故选取以下两类典型代表进行介绍:
(2) 网易新闻
网易新闻和腾讯新闻可以归结为一般类型的新闻首页,我们采用的是从新闻首页开始的广度优先递归爬取策略。我们注意到新闻的正文页面往往是静态网页.html,所以我们记录网页上出现的所有以.html结尾的网页的url,爬到一定量的时候去重一次。
对于一些不是新闻的误分类网页,容错是检查新闻文本标签
将被删除。
在新闻正文页面,我们重点关注内容、时间、评论获取。
2.1.2 创新点
实现新闻网页动态加载评论的爬取,如搜狐新闻评论的爬取
" />
没有借助开源的新闻爬取工具,实现了新闻标题、正文、时间、评论内容、评论数的高效爬取
2.2 索引构建
分词,我们使用开源的jieba中文分词组件来完成,jieba分词可以将一个中文句子切割成词项,这样就可以统计tf,df
去停用词,jieba分词后去停用词的步骤就完成了
发帖记录表存储,字典采用B-tree或hash存储,发帖记录表采用邻接链表存储,可大大减少存储空间
倒排索引构建算法采用内存中单遍扫描索引构建方法(SPIMI),即依次对每篇新闻文章进行切分。如果出现新词,则将其插入词典;否则,文档的信息将被添加到相应的术语中。在 的 postings 表中。
2.3 检索模块
2.3.1 检索方式
(1) 关键词搜索
查询是根据用户输入的关键字返回相应的新闻。首先,jieba根据用户查询进行分词,将分词后的词条数记录下来,以字典的形式存储。
完整的源码和详细的文档已经上传到WRITE-BUG技术分享平台,需要的请自取: