解决方法:SEO收录异常诊断:负载均衡架构导致的SEO问题及解决方案

优采云 发布时间: 2022-12-11 06:11

  解决方法:SEO收录异常诊断:负载均衡架构导致的SEO问题及解决方案

  SEO收录异常诊断:负载均衡架构导致的SEO问题及解决方案

  最近,我负责的其中一个站点收录出现了异常。整个诊断过程我周末有时间给大家说说。有两个核心问题,由服务器架构和网站程序架构引起;本文仅分享服务器架构导致的收录异常。

  首先,自我介绍。我在深圳某公司工作,长期在乙方的外包公司工作。众所周知,大部分seo外包公司都是小企业网站,而这些网站做的关键词往往只需要换TDK就可以完成排名工作。

  另外,目前大部分中小站点的结构都非常简单,开源cms+单机云服务器(虚拟主机)+CDN(这还是有一定运维能力的公司)。鉴于以上经验,我完全不知道服务器架构也会出现问题。

  1.发现收录异常

  可以清楚的看到收录在3月中下旬正常,问题出现在3.31到4.25之间。也就是说,这个间隔肯定是网站有问题造成的。收录异常。

  开始按照通常的方法查看,尤其是服务器日志中的一些参数没有排除,导致发现问题,如下:

  1.1. 站长平台模拟爬虫爬取,属于正常现象。

  1.2. 搜索引擎爬虫爬取的搜索量在增加,趋于正常。这里有异常。查看假的蜘蛛爬虫在抓取数据,真正的百度爬虫确实在增加。

  1.3. 核心关键词的排名波动较大,但偏高,上升趋势居前。目前核心词排在前5,这很正常。

  1.4、服务端日志分析,爬虫对应的request_uri值(相对地址)暂时正常,请看下图。

  1.5. 服务器日志是阿里云的日志。http请求,7月18日、7月19日、7月20日、7月26日出现小范围服务器500访问错误;但顶多也只是有限时间的收录异常,不是*敏*感*词*的No收录。

  

  在服务器访问日志分析中,一般需要关注的项目有:爬虫爬取时间值、爬虫页面URL值、爬虫在页面上的爬取顺序、一段时间内爬虫爬取的次数,还有一种说法是蜘蛛 IP 值具有不同的权重。(我不确定,所以我没有提到它)

  页面URL值:一般服务器日志都是相对地址。我诊断的问题是主机值被忽略了。真正的抓取URL应该是host+request_uri值的组合。

  页面爬取顺序:可以查看网站架构的爬取情况,可以大概知道网站页面中爬虫的爬取顺序,可以辅助爬虫软件的使用或者经典爬虫(PY、PHP等)的爬取情况作为参考

  时间段内爬虫爬取量:查看网站页面总数与时间段内爬取量的比值,判断网站的受欢迎程度。

  说到这里,我来解释一下站点的服务器架构:

  采用负载均衡,文件服务器+数据服务器+前端服务器。数据服务器的所有数据都被API接口、GET前端和APP使用。网站URL 是相对地址。自然地,服务器之间也使用内网通信。

  综上,大家可能还会看到有被忽略的参数,就是1.4中提到的log host值。因为是相对地址,host+request_uri就是要抓取的完整地址。被忽略的Host值为API的二级域名

  说到这里,你可能已经基本确定知道原因了。

  即百度根本没有抓取真实的页面URL,而是实际抓取了API域名+request_uri,

  即假设数据库服务器API渲染到前端的数据路径是使用内网IP,

  捕获的页面 URL 是:

  真实的URL应该是外网IP:

  

  既然已经掌握了30%的核心问题,接下来自然就是数据论证了,主要是从几个方面着手。

  1.翻开开发日志记录

  2、4月前后服务器日志对比

  从1发现4.13号负载均衡数据服务器的数据服务器api取消了代理。这样做的后果就是前端直接抓取host主机值作为api域名下的数据渲染到前端,因为它直接使用内网IP,没有经过代理。同时api二级域名是host主机值。

  从2开始,发现四月份左右的日志的host主机值发生了变化,从到。

  最终问题出现在host主机为api的站点,没有使用代理,也就是说只要api站点通过代理成为www的二次站点渲染即可。如果不使用代理,百度GET返回的页面就是内网IP,这就是抓取的URL。

  解决方案:

  1.负载均衡数据服务器api接口使用代理

  2.在Head区域添加标签

  3.前端渲染的HTML使用绝对路径

  4.开发API接口推送数据

  需要SEO网站优化网站代更新百度云加速可以联系783398135紫燕

  解决方案:wordpress采集插件-wordpress关键词插件

  wordpress插件,最近很多站长问我有没有热门插件推荐的好用的wordpress插件。它主要是一个用于SEO优化的wordpress插件。wordpress采集插件、wordpress流行关键词插件、wordpress百度推送插件、wordpress搜索引擎蜘蛛统计分析插件、wordpress翻译插件等别问,只问有各种插件。今天来说说wordpress插件。

  wordpress采集插件,wp站长都知道wordpress本身不提供文章采集伪原创发布功能,我们需要使用wordpress采集插件大量使用长尾关键词做全网文章关键词pan采集,需要注意的是,虽然wordpress采集外挂-in 数据源比较丰富,文章 内容质量来源不用担心,但是文章 来自这些数据源采集 需要伪原创文章 为搜索引擎处理,然后结合文章 聚合+ 标签进行聚合,最后文章 被释放。

  Wordpress采集插件不需要任何采集规则,完全实现一键抓取任务。支持365天无限循环挂机采集维护所有网站。设置好相关参数后,软件会从第一个开始,完成全自动采集和维护,并移至下一站进行更新。它一直循环,可以轻松管理数十个或数百个站点。

  function remove\_comment\_fields($fields) {

unset($fields\['url'\]);

return $fields;

}

<p>

add\_filter('comment\_form\_default\_fields','remove\_comment\_fields');

function wpd\_remove\_comment\_website\_field( $fields ) {

unset( $fields\['url'\] );

return $fields;

}

add\_filter( 'astra\_comment\_form\_default\_fields\_markup', 'wpd\_remove\_comment\_website\_field', 99 );</p>

  Wordpress 采集 插件几乎可以按照您需要的格式执行任何操作 采集,只要您可以在浏览器中看到内容即可。

  wordpress流行关键词插件可以通过百度下拉词和百度相关搜索词获取,支持搜狗、百度、今日头条的下拉词和相关搜索词,最后是wordpress流行关键词插件可以形成大量的网站关键词相关长尾关键词,让您网站得到更多的搜索引擎收录,得到一个更好的搜索引擎优化排名。然后这些长尾关键词自动从互联网采集获取最新的文章、图片、视频等。

  

  Wordpress百度推送插件,我们都知道推送是SEO的重要组成部分。文章发布后,我们使用百度推送插件主动推送wordpress 采集伪原创,一键批量搜索引擎,方便文章被及时搜索到收录 被搜索引擎使用,以保护 网站 的 原创 身份,并避免 网站 内容同质化。

  特别是提交新站点最快的方法是推荐wordpress百度推送插件,将站点新输出链接推送到百度,保证新链接能被百度及时收录。与sitemap相比,及时推送、搜索、抓取速度更快。我们网站制作的新内容最好尽快自动推送到百度,效果更好;自动推送受推送次数限制。尽量不要向百度推送重复内容。这将是对您自己的可推送资源的巨大浪费。

  Wordpress搜索引擎蜘蛛统计分析插件,今日蜘蛛——方便站长快速了解当天、昨天和30天平均访问​​蜘蛛数、爬取网址和平均爬取网址。

  Wordpress搜索引擎爬虫统计分析插件提供爬虫趋势图——支持查看爬虫数量、抓取URL总量以及按今天、昨天、最近7天抓取URL平均值的趋势折线图以及最近30天,可以查看之前的周期数据进行对比分析。

  Wordpress搜索引擎蜘蛛统计分析插件统计Top10蜘蛛-支持按今天、昨天、最近7天、最近30天查看爬取的URL数量和Top10蜘蛛的比例。

  Wordpress搜索引擎蜘蛛统计分析插件可统计Top10蜘蛛爬取网址-支持按今天、昨天、最近7天、最近30天查看Top10蜘蛛爬取网址的爬取频率和比例,方便站长爬取流行的蜘蛛获取页面URL进行分析。

  Wordpress翻译插件主要有百度、谷歌、有道、讯飞、翻译。wordpres翻译插件支持内容到繁体中文、内容到英文、内容到火星文、内容到拼音、内容到繁体、英文、拼音、火星文等相互转换,非常有利于SEO优化。

  Wordpress 网站建设优化是一个长期的过程。一定要懂得使用各种wordpress插件来做网站SEO优化,这样才不会重复造轮子,SEO优化效果才会有效果。今天关于wordpress插件的讲解就到这里了,下一期分享更多SEO知识和SEO技巧。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线