汇总:WordPress批量采集网站内容管理

优采云 发布时间: 2022-11-22 22:29

  汇总:WordPress批量采集网站内容管理

  我们有些站长在使用WordPress一段时间后,会发现网站打开变慢了。即使安装了加速插件,情况也没有好转。今天博主就给大家分享几个提高WordPress网站优化的小技巧。

  作为一个开源的CMS,WordPress有非常多的插件可供选择。诚然,插件在我们网站的运维中起到了非常重要的作用,但是过多的插件也会导致我们网站的性能下降。所以建议减少插件数量,保留必要的插件。

  WordPress管理插件是一款建站后全流程管理插件,具有非常强大的管理功能,从网站内容更新、网站SEO、网站数据监控三个方面实现对网站的全程管理.

  1.网站内容更新

  WordPress管理插件的采集发布功能可以让我们批量采集全网各大平台的数据、图片、文字或视频。采集的内容可以多种格式存储在本地,也可以直接发布(伪原创)。支持定时采集发布,实现24小时内容更新;

  2.网站搜索引擎优化

  

" />

  WordPress管理插件对网站内容的优化从采集开始。采集

支持过滤敏感词、保留原文标签、去除图片水印等,做到纯净;本地保存后,支持TXT/HTML/小轩风格存储,可在本地二次创作或直接伪原创发布;发布前,您可以调整文章浓度关键词、图片加水印、翻译文章等设置,提高我们文章的原创性。

  3、网站数据监控

  WordPress管理插件实现了网站的全流程管理,同时也拥有极其简单的用户体验。任务*敏*感*词*可视,无需输入代码规则,鼠标点击即可完成所有配置。不仅可以实时看到每个任务的成功或失败,还可以在插件中查看我们绑定站点的每日采集量、蜘蛛数量、网站权重等信息,适合数据化管理并在同一屏幕上分析多个网站管理员。

  精简插件只是我们WordPress优化的一部分,我们还可以通过以下几点进一步优化WordPress。

  1.图像压缩

  当我们想要加速我们的 WordPress 网站时,图像优化应该是我们首先考虑的。我们很多旅游博主经常遇到这个问题,因为上传大量高清图片导致网站缓存过大,拖慢了我们网页的加载速度。

  2.远离脚本

  

" />

  WordPress 页面加载缓慢的原因之一是不必要的 HTML AD。由于这些 HTML 广告中的内容通常毫无意义,因此往往会降低网站的性能。

  3.全站缓存

  WordPress 站点在缓存后正常运行。通过定期缓存它,您可以提高网站的性能速度并减少服务器上的数据读取。简而言之,缓存您的 WordPress 网站可以防止网站加载性能变慢。

  4.服务器

  当我们的网站持续打开很慢很慢的时候,就不得不考虑服务器本身的问题了。当我们服务器中的网站过多时,服务器的内存或者CPU无法满足这些网站的运行,很容易导致卡顿。这个时候我们就应该升级我们的服务器,或者购买更高配置的服务器来运行我们的网站

  WordPress管理插件优化网站的分享到此结束。当然,网站SEO是一项全面细致的工作。我们的部分优化工作可以通过插件来完成,还有更多的优化细节需要我们在网站运维中进行。

  原创文章WordPress批量采集网站内容管理,版权所有

  如需转载请注明出处:

  分享的内容:SEO如何处理采集内容(5)

  后台遗留问题很多,本文是对其中两个问题的解答

  文本提取

  文本提取在“泛集”一节中提到过,还有人说不知道怎么做。

  这个东西可以在网上开源。谷歌搜索“{programming language}文本抽取算法”,可以找到很多解决方案,比如:Readability, Boilerpipe, Diffbot ... 大部分算法都已经封装好,直接拿来用,不用写你自己。我们是做网站的,不是做技术的,有现成的轮子就可以了。

  那么有的人又会有一个疑问:我该用哪个呢?

  不不不,这不是用轮子思考。首先,不可能每个算法都提取出所有的网页。其次,算法不止一种。

  那么这件事就简单了。算法不会提取当前网页的文本。这很容易处理。您无需执行任何其他操作。随便剪出一个算法试试看。如果它不起作用,请用另一个替换它。提取文本。除非页面模板杂乱无章,什么都有,比如网站首页,没有明显的主要内容块,这又是另算。

  因此,如果在泛采集过程中需要提取正文的链接,最好先过滤掉首页URL。

  

" />

  如果你纠结于使用哪一个,请参考:

  内容去重

  还有一个问题,采集

到重复的内容怎么办?

  这渣之前用过两种方法。

  首先:

  首先,我们定义了有效内容需要满足哪些指标。例如,字数必须大于150字才算有效内容,小于150字的删除将不会被存储。那么大于150字的内容,标点符号一般都在4个以上。

  XXXXXXX,XXXXXXXXX。XXX:“XXXXXX,XXXXXXXXXXXX。XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX。XXX?”

XXXX,XXXXXXX。XXXXXXX;XXXX;XXXXXXXX;XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX - XXX!

  

" />

  因此,对于每篇文章,从第二个标点符号开始,连续提取两个标点符号之间的文本,字数大于7,直到提取出3个文本段。

  然后将这3个文本段合并为一个,对有重复文本段的文章进行去重,只保留一个。因为连续三个正文段相同的文章,基本都是重复的,而且是完全重复的,没有改过。

  第二

  使用现成的文本去重算法,还是谷歌搜索,一堆现成的方案,比如simhash,Shingling...

  首先,清洗所有检索到的文本,去除不相关的词,如停用词、粒子(dede..)等,然后使用上述解决方案计算相似文档。

  哪个更好?这个渣男觉得都一般,也没觉得哪个好,但是可以一起用。. .

  但有一个问题。一旦文章数量增加,比如几百万,程序运行很慢,很烧CPU,怎么办??

  所以我沿用了第一种方法的思路,不去分析全文,直接找出每篇文章最长的n句,做一个hash签名,然后用上述现成的算法运行,n为一般取为3。不仅运行速度快了很多,而且最终查找相似文章的效果似乎也比以前更好了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线