自动采集文章网站(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))

优采云 发布时间: 2022-04-13 10:02

  自动采集文章网站(自建RSS阅读器TinyTiny采集插件-胖鼠采集(组图))

  WordPress原本是一个博客,但由于其强大的功能和众多的用户,WordPress已经成为了一个cms平台,一些公司甚至使用WordPress来建站,这真是无处不在。采集建筑工地用wordpress,一直在做垃圾站的朋友都在用。

  一方面,Wordpress本身的SEO相当不错,有利于搜索引擎收录和SEO排名;好复杂的配置,新手也能搭建一个网站自动采集,每天自动发布,放个小广告“坐享其成”。

  WordPress采集的插件很多,但基本上都是付费的。本文文章主要是分享WordPress新版采集插件-胖鼠标采集,开源免费,支持所有网站列表详情页,有以下功能批量自动采集、自动发布、自动标注等。可用于采集微信公众号、短书等各种网站。

  

  关于采集信息的采集和自动化,还可以看:

  用Huginn抢任意网站RSS和微信公众号更新——搭建一站式信息阅读平台自建RSS阅读器Tiny Tiny RSS安装配置自动更新、全文RSS、换主题、手机RSS登录VPS主机库存发货监控及微信\TG通知系统:VPS-Inventory-Monitoring安装配置

  PS:2020年3月23日更新,好插件也需要好主题,国外WordPress主题市场比较成熟,大家可以试试:WordPress付费主题平台AppThemes:主题购买、安装、升级及问题。

  一、WP胖鼠标采集插件安装

  插入:

  WordPress Fat Mouse 采集 插件推荐使用 PHP 7。如果您的 PHP 版本低于 PHP7,请从 Fat Mouse 采集 的 Github 下载并使用 Fat Mouse v5。分支名称: based_php_5.6 ,系统要求如下:

  PHP >= 5.6

  查询列表 v4

  mysql不需要

  Nginx 没有要求

  WordPress Fat Mouse 采集插件的主要功能如下:

  微信公众号文章采集,简书文章采集,列表页文章批量采集。

  详情页文章采集,分页爬取——历史数据,别放过。

  自动采集,自动发布,文章自动添加动态内容优化SEO。

  自动标记自动标记,文章 过滤,自动精选图像。

  内容关键字过滤替换 伪原创 ,自定义 采集any网站 。

  WordPress Fat Mouse 采集 插件主要有以下几个部分:

  ①爬虫模块,Pioneer配置模块的各种特色配置,用于搜寻数据。

  ② 配置模块,支持爬虫模块为他提供采集规则核心能量。

  ③ 数据模块,数据 该模块具有胖鼠的各种特色发布功能。

  安装Wordpress Fat Mouse 采集插件后,如下图所示:

  

  二、WP胖鼠标采集插件操作2.1配置中心

  在 WP Fat Mouse 采集 插件配置中心,已经配置了 采集 规则。Wordpress Fat Mouse 采集插件自带几个配置,可以先点击导入。(点击放大)

  

  2.2 采集中心

  在采集中心,可以启动采集文章,Wordpress胖鼠标采集插件分为list采集和details采集, list采集可以批量采集某个网站,详情采集是采集的某个页面。

  

  2.3 数据中心

  采集完成后可以到数据中心查看已经采集到的文章,点击这里发布。(点击放大)

  

  WordPress Fat Mouse 采集Plugins采集 和 Publishing文章 运行良好。

  

  这是Wordpress胖鼠标采集插件采集文章的详情页,完全把网站的文章采集带过来了。

  

  三、WP胖鼠采集微信公众号

  WordPress的采集微信公众号的文章也很简单,先找到你想要的采集的微信公众号文章。

  

  然后在“采集中心”填写微信公众号文章的网址,支持批量添加多个网址,点击采集。

  

  采集完成后,即可从采集发布微信公众号文章。如下所示:

  

  四、WP胖老鼠采集小册子知乎

  WordPress采集简书、知乎等类似上面的采集微信公众号文章,直接输入网址采集即可。

  

  五、WP 自定义采集任何网站

  WordPress Fat Mouse 采集 插件自带的几个配置文件其实是给我们演示的。真正的力量是我们自己定制的 Wordpress Fat Mouse 采集plugin采集rules,采集Any网站Content (non-AJax)。

  5.1 新 采集 规则

  在Wordpress Fat Mouse 采集插件中新建采集规则,这里以采集文章为例,先命名,选择列表配置(文章@ > 很多,选择这个Batch 采集),其他的保持如下图:

  

  然后填写采集地址、范围、采集规则等,如下图:

  

  一般来说,采集规则需要多次测试才能成功,所以在创建新规则之前,我们先开启插件的Debug模式,具体结果在Chrome的网络一栏查看浏览器元素。

  

  5.2 列表采集规则

  采集 范围是 Wordpress Fat Mouse 采集 插件 采集 所需的 URL 列表。首页最新的文章标题以H2+URL的形式嵌套(点击放大)。)。

  

  所以我这里填写采集的范围:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径不需要手动完成。你可以直接在Chrome评论元素底部看到,注意上图。

  在列表采集规则中写:a:eq(0) href,href表示选择a标签的href属性(即URL),我们使用jquery的eq语法a:eq( 0) 表示取H2区域的第一个a 注意:代码从0开始(只有一个a标签只能填a),如果目标站链接是相对链接,程序会自动完成。

  

  在Debgu模式下,我们可以看到我们已经获取到了首页最新的文章栏下所有文章的URL地址。

  

  5.3 细节采集规则

  上面我们有采集列表下的所有URL,那么我们需要采集该URL下文章的内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。并且标题和内容都在 .single-post-box 下。

  

  标题。现在我们可以为采集标题写规则如下:范围是.single-post-box,选择器是.title-post,属性是文本。

  

  在 Debug 模式下,我们可以看到我们成功获取了 文章 标题。

  

  内容。采集内容规范写成:范围是.single-post-box,选择器是.the-content,属性是html。文章的内容成功获取如下。

  

  最后,采集Latest文章栏下的所有文章规则如下:(点击放大)

  

  六、WP定制采集成功效果

  在采集中心,点击我们刚刚配置的列表采集config。

  

  稍等片刻,Wordpress Fat Mouse 采集 插件就会把最新的文章all采集 带过来。

  

  点击发布,采集成功。

  

  七、WP 自定义采集规则问题7.1 参数和属性

  WordPress Fat Mouse 采集 插件需要三个参数:

  link 采集链接一般取a标签的href属性

  title 标题一般取详情页h1标签的text属性

  内容内容一般采用详情页的 .content 标签中的 html 属性。

  WordPress Fat Mouse 采集 插件属性解释如下:

  href基本是指a标签的href属性(这个属性存放的是点击后的跳转地址)

  text 取区域的文本,一般用于标题

  html fetch区的所有html一般都是用来获取内容的,内容比较多。而且内容有布局,image css js里有很多东西。所以要获取所有原创的html

  7.2 个 jQuery 选择器

  :first、:last、:odd 等几个 jQuery 选择器在下面的内容过滤中非常有用,大家可以熟悉一下。

  

  八、WP胖鼠采集优化方法8.1 内容过滤

  正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:

  a是去掉区域内所有的a标签跳转功能。保留文字。

  -a 删除a标签包括删除a标签中收录的内容(不推荐,因为a中删除了一些图片,a中的图片就没有了。)

  -div 删除所有 div

  -p 同上

  -b 同上

  -span 如上

  -p:先删除第一个p标签

  -p:last 删除最后一个 p 标签

  -p:eq(-2) 删除最后两个p

  -p:eq(2) 删除正二p

  比如我写的过滤规则: -div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first ,意思是删除#ftwp -container -outer, #sociables, .uc-favorite-2.uc-btn 三个Div的内容,同样删除最后一个P和第一个ol列表。

  8.2 URL 自动转换成拼音

  Wenprise 拼音蛞蝓

  WordPress Fat Mouse 采集 插件设置的标题收录文本。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将 文章 别名更改为英文或拼音。

  文章3@>

  8.3 自动添加标签

  简单标签

  WordPress Fat Mouse 采集 插件有自己的自动标记功能。如果你觉得不好用,可以使用 WP 自动标签插件 Simple Tags 为你的文章自动生成标签,自动添加链接地址等。

  文章5@>

  8.4 自动设置特*敏*感*词*片

  快速精选图片

  Quick Featured Images 帮助您为自动 采集 和发布的 文章 设置特*敏*感*词*像。

  文章7@>

  文章8@>WP Auto采集 和 AutoPublish

  插入:

  WordPress Fat Mouse 采集 插件可以设置自动采集 频率。

  文章9@>

  WordPress Fat Mouse 采集 插件还可以设置自动发布间隔。

  

  要更改自动采集 和自动发布的时间,您可以使用 WP Crontrol 插件,启用该插件后,应该能够看到 WordPress网站 上发生的所有“歪曲任务”。

  

  点击编辑定时任务(Wordpress胖鼠标采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。

  

  十、总结

  WordPress Fat Mouse 采集插件很强大,只要你要采集的页面不是Ajax,就可以使用WordPress Fat Mouse采集插件自动采集@ >并发布文章,为了防止被搜索引擎发现,还可以替换链接和关键字,在页面前后插入一定的内容,形成“伪原创”。

  WordPress Fat Mouse 采集 插件目前没有监控功能,即无法在某个网站 内容更新时自动跳转到采集。我们可以用规则写进去。一般来说,第一篇文章就是最近更新的文章。这时候我们可以把采集的范围缩小到第一个H2区域,写成如下:

  #cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2

  文章发件人:Dug Station No,保留所有权利。本站文章为作者原创文章除非注明出处,可自由引用,但请注明出处。部分内容引用自:.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线