汇总:WordPress自动采集发布插件:Crawling1.0【附带教程】

优采云 发布时间: 2022-11-04 06:14

  汇总:WordPress自动采集发布插件:Crawling1.0【附带教程】

  Crawling是Wordpress下的一个自动采集爬虫插件,可以自动采集爬取目标网站内容并自动发布。

  1.写在前面

  首先,我声明我实际上并没有从事 PHP。我通常使用 C++ 和 Python 来编写代码。对于 PHP,这只是多年前自己写博客的几天。我最近换了工作,等着离开。我没事干,就写了个插件玩。如果您认为它没有用,请给我一些建议。我会接受好的建议并尝试使这个插件更好。

  在开发这个插件时,我们考虑过使配置尽可能简单易懂。但是为了让插件更加灵活,还是需要了解一下常规和xpath规则。如果你看懂了,相信你看完这个教程就明白了,一点难度都没有。没接触过正则化和xpath也没关系,因为你真的不需要了解,直接看示例文案即可。因为是第一个版本,有些地方可能没有写详细。欢迎您指出。

  2.下载安装

  首先,打开并下载最新版本,得到 crawling_v*.tar.gz。

  然后,解压压缩包,上传到wordpress插件目录。激活插件。

  3.任务管理

  一个任务可以理解为一个爬虫,在这里可以配置多个任务,每个任务可以单独设置参数。

  比如这里我设置了三个任务,如图:

  第一个任务是爬取《听风声》的全部内容(这是我最喜欢的电影之一网站)。抓取间隔设置为-1,表示只采集一次,不重复。

  第二个任务是爬取《听风》的前三页。如果采集没有重复采集,只会爬取前三页的更新内容。采集 每 24 小时。

  第三个任务是爬取“阳光电影网”首页所有更新的电影(这里是电影天堂的新网站),因为阳光电影的所有更新都在首页。采集 每 24 小时。

  为每个任务单独设置的参数,如图:

  以下是每个任务的设置:

  1 任务名称:

  每个任务的别名方便好记,没有其他作用。

  2 参赛网址:

  

  每个任务爬虫的起始地址。此 URL 通常是主页或列表页面。然后,爬虫将从该页面启动 采集。

  3 爬行间隔:

  每个任务(爬虫)运行的时间间隔。

  4 列表页面 url 常规/内容页面 url 常规:

  爬虫进入第一个URL(入口URL)后,需要区分哪些内容页面需要采集。所以需要设置匹配的内容页面url正则表达式。

  爬取还需要知道如何翻页,找到更多的内容页面,所以需要设置列表页url的正则表达式。

  例如:抓取《听风吟》全站内容

  打开 网站 主页。发现所有listing page url都是数字,而content page url都是numbers.html

  列表页

  内容页

  所以正则表达式如下:

  常规列表页面网址:\/page/[1-9]\d*$

  常规内容页面网址:\/[1-9]\d*.html$

  如果只需要采集前三页的更新内容,只需将列表页的正则表达式改为\/page/[1-3]$即可。

  配置这两个参数时,可以打开“正则表达式在线测试”页面进行测试。

  5 文章标题(xpath)/文章内容(xpath):

  进入内容页面后,爬虫需要选择要爬取的内容,比如文章的标题和文章的正文。所以你需要设置xpath来告诉爬虫。

  例如:

  

  一个打开听风的页面,如:. 通过浏览器查看页面源码,如图:

  如您所见,文章 的标题收录在

  此元素中的元素。所以标题的xpath规则是://h1[@class=”mscctitle”]/a

  同样,从上图可以看出:内容收录在

  ,所以内容的xpath规则为://div[@class=”content-text”]

  配置完成后,可以打开“XPath Online Test”页面进行测试。

  6 内容开始字符串/内容结束字符串:

  一般的网站内容中都会有广告,或者其他一些东西,所以我们需要过滤掉这些内容,只保留我们需要的部分。而这部分无用的东西(广告、分享按钮、标签等)大多在文章的开头或结尾,内容固定。所以我们可以通过简单的字符串过滤掉。

  例如,《一起来听风吟》每篇文章文章的内容开头都有一个广告,如上图所示。

  通过“XPath Online Test”页面测试我们上一步配置的内容xpath规则,可以得到文章内容,如下图:

  如您所见,真实内容来自

  之后开始。

  所以内容起始字符串设置为:

  因为 文章 的内容后面没有多余的部分,所以后面不用担心,只需将内容结束字符串设置为空即可。

  7 文章图片:

  采集插件可以自动将文章中出现的图片保存到本地,默认按年、月保存在文件夹中,并将图片的标签设置为文章的标题。如果不需要本地保存,可以选择“不处理”。

  8 文章类别:

  选择要保存到的类别。像 wordpress 一样,您可以选择多个类别。

  技巧:seo常用工具有哪些(网站SEO排名优化必备工具)

  SEO人员在平时的SEO优化中会使用很多SEO工具,智能诊断网站SEO问题。SEO工具主要是为了方便SEOer做采集、发布、收录查询、主动推送、SEO诊断等日常工作。提高效率,简化操作,解放双手,查询一些网站问题,监控关键词排名收录等。

  1. 免费采集

  免费采集特点:

  1、只需将关键词导入到采集相关的关键词文章,同时创建几十个或几百个采集任务(一个任务可以支持上传1000个) 关键词),支持过滤关键词

  2. 支持多消息源:各平台资讯、知经验、大新闻等(可同时设置多个采集消息源采集)

  3.可设置关键词采集文章条数,软件可直接查看多任务状态采集-支持本地预览-支持采集链接预览

  4.自动批量挂机采集,无缝连接各大cms发布者,采集后自动发布——实现采集发布全自动挂机。

  2.全平台发布

  全平台cms发布者的特点:

  1、cms发布:目前市面上唯一支持Empire、易友、ZBLOG、织梦、WP、PB、Apple、等各大cms搜外等,同时进行批量管理和发布的工具

  2.对应栏目:对应的文章可以发布对应栏目

  

  3、定时发布:发布间隔可控/每天发布总数

  4、监控数据:直接监控已经发布、待发布的软件,是否为伪原创、发布状态、URL、程序、发布时间等。

  3.收录详细数据查询

  收录链接查询功能:

  1、收录排名、收录标题、收录链接、收录时间、真实标题、真实链接、真实关键词,一站式查询统计

  2. 输入关键词或site命令查询优秀同行网页收录的数量和排名。在百度/搜狗/今日头条的收录中可以直观的看到一个网站同行网站的排名,通过关键词布局体验确定自己的网站布局一大批优秀同行,以及优化的方向!您也可以通过关键词查询了解您的网站关键词排名和收录情况!

  3.查询工具还可以做什么:防止网站被黑(通过观察收录的情况,检查收录是否有不良信息)-网站修订(工具提取)收录链接向百度资源搜索平台提交新的链接URL路径更改)-关键词排名(通过关键词查看网站的排名,关注 关键词 排名) - 网站 推送(通过查询 收录 链接 - 只推送而不是 收录网站)

  4、通过站点:域名,查询网站有多少个收录,收录有多少个关键词?Excel表格可以直接在软件上导出,做进一步分析,进行整体分析!(SEO站长必须收录链接数据分析工具)

  四、全平台推送工具

  全平台推送功能:

  工具代替手动主动推送,效率提升数倍,收录数倍提升,解放双手!

  

  批量搜狗推送:

  1.验证站点提交(官方限制单个站点每天推送200个,软件可以突破限制,单个站点每天可以推送几十万)

  2.提交未经验证的站点(软件可以每天全天推送)

  批量百度推送:

  采用百度最快的API推送方式,一次可大批量推送到百度

  批量360推送:

  自动批量完成360主动推送软件,每天提交上万个链接

  批量神马推送:

  使用神马最快的MIP推送方式,一次可以大批量推送到神马

  以上功能都集成在一个SEO工具中,SEO工具还配备:批量搜狗快照更新/批量搜狗投诉/批量搜狗绑定站点/链接生成/链接抓取/在线伪原创等功能!SEO工具是SEO人员做网站辅助的必备工具。

  相关文章:站长的SEO工具有哪些(网站SEO优化必备的SEO工具详解)SEO常用的优化工具有哪些(优化必备的4个SEO工具)免费网站 优化软件(一款免费的全能SEO工具)如何进行SEO快速排名(企业网站快速优化排名方法)外贸网站优化教程(外贸网站优化seo策略)如何优化一个 seo 网站,SEO 优化的 8 个步骤 网站?网站什么是seo技巧,网站SEO优化的6个步骤和10个技巧?网站seo优化是什么意思,SEO优化关键词如何巧妙利用排名分类软文外链生成快速提升网站和<

  责任声明:文章资料由百科教程之家编辑精心整理、总结、整理,辛勤汗水。转载时请遵守行业规范,并务必注明作者、出处和本页链接。谢谢你的合作!

  本文标题文章:SEO常用工具有哪些(网站SEO排名优化必备工具)

  本文文章url地址:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线