seo工具-百度快照诊断功能(如何利用好百度站长工具的链接分析功能,来定位网站可能存在的SEO问题)
优采云 发布时间: 2021-11-14 05:05seo工具-百度快照诊断功能(如何利用好百度站长工具的链接分析功能,来定位网站可能存在的SEO问题)
网站链接分析,源于对Web结构中超链接的多维分析,是网站优化操作中必不可少的诊断问题的方法。百度站长平台也推出了官方链接分析工具。那么,如何利用百度站长工具的链接分析功能定位网站可能存在的SEO问题呢?
以下是百度站长社区站长3人分享的4句话:
曾经在社区里看到一个站长朋友提问,说在百度站长工具的链接分析中,为什么会出现锚文本为@NULL@数据,感觉很不明白。
然后我试着联系了一些我经常打交道的站长朋友,问他们有没有关注百度站长工具中的链接分析,有没有定期进行统一分析,在大量链接的情况下是否正确死链接数据。定位... 原来有很多站长朋友平时很少做这样的分析工作。所以,一出问题,她们就觉得不清楚,忍不住骂杜娘作弊。
其实不知道杜娘是不是作弊,但我想说杜娘只是反映了问题,还是需要我们自己定位和处理问题,确保网站不是因为这个问题,受到的影响更大。
于是,我就有了做这个问题的打算,题目地址:。
1、这篇文章的主要内容是什么?
(1)找出是否有黑链。从日志分析,百度蜘蛛爬取了网站哪些意外的页面,是否有黑链。(这个可能要先卖了,因为这个又是一个大项目,本期会提到一些)
(2)百度站长工具外链分析-检查是否有垃圾外链、黑链接等,以及站内链接在哪,如何处理。(也涉及到这个问题)
(3)百度站长工具链接分析-三大死链(内链死链、链出死链、死链中链)、批量下载数据、合并数据、excel操作、逻辑分类、定位问题、处理(定位加工,材料不够,因为已经加工了很多,没有材料= =|||||)
(4)通过分析这些数据得到的其他与SEO效果相关的信息(垃圾搜索引擎,垃圾外链导致的无用爬取,资源配额的浪费,如何拒绝。)
(5)如何自动使用shell脚本定位百度蜘蛛抓取到的死链接,进行审核,然后自动提交确定为死链接的网址。(本期话题太多,留作下一个话题)
(6)分析工具介绍(firefox设置、插件、excel、windows命令提示符批处理)
2、本文用到的主要工具
(只是结合例子,如果有其他类似功能的工具,请根据自己的习惯使用)
[浏览器] 火狐浏览器,版本无所谓
[插件]:启动剪贴板
功能:一键打开剪贴板中存在的URL。(注意URL中只能标点英文数字,如果有中文可能无法识别)。快捷键:alt + shift +K(先复制单个或多个网址)
设置:打开选项设置,选择下载文件自动保存的位置(我这里选择的是桌面,也可以单独创建一个文件夹对批量下载的文件进行分类)
【表格处理】:Microsoft Office 2013 Excel
【文字处理】:记事本++
【批处理】:Windows自带命令提示符
一、 我们先来看看外链分析。
分析外链数据的主要目的是找出垃圾外链,主动屏蔽可能对网站造成不良影响的垃圾外链。最终目标:
1、 找到垃圾外链的域名,进行反盗链处理(对于垃圾域名,直接返回404状态码);
2、处理本站可能有问题的页面。
在这里,我将重点介绍第一点;第二点比较简单,我再粗略的解释一下。
1、 垃圾邮件域名定位。
图例:可以看到这是一张明显异常的趋势图
我们可以下载外部链接数据进行初步分析。
图例:下载的表单文件(csv 逗号分隔符)
但是这样的原创数据很难分析。所以,我们需要按照一定的逻辑来分析——也就是按照【链接网页的URL】来分类。
首先,我们可以快速浏览一下,做出直观的判断。这些页面大部分是什么类型的页面?
以我们的网站为例,外链数据分为两类,普通外链和垃圾外链。
垃圾外链分为站点搜索结果页(垃圾搜索词)和黑客植入的黑链(已被处理为死链)两种。
我们进行数据处理有两个目的:识别哪些是正常外链,哪些是垃圾外链,并根据垃圾外链的相关数据进行一些处理,以保护网站;并且需要垃圾链接指向的页面不会被搜索引擎抓取(浪费抓取资源配额)和收录/index(保证网站词库不被污染,不给网站带来形象和关键词的负面影响)。
第一步,过滤掉网站的搜索结果页
图例:过滤数据,复制到新的工作表,删除原工作表中的过滤数据,对数据进行分类
还有几种类型的搜索链接格式,它们都以相同的方式处理。
然后对原创工作表中的剩余数据(空白行)进行去重,得到剩余的链接信息。
图例:对剩余数据执行简单的重复数据删除过程。
然后,我们需要过滤黑链。黑链的数据一般需要先从网站日志中分析(这个是最全面的,为了保证效率,会需要使用shell脚本自动运行,但是涉及的太多了空间,我会在以后的主题中解释)。
当然,你也可以将表格中【链接网页url】的那一栏按顺序排序,并在旁边分析(自己打开,黑客会用一些特殊的方法来防止我们识别真正的被搜索引擎识别。垃圾邮件,最常见的情况是使用js跳转。这样我们通过浏览器访问的时候看到的内容就完全不一样了,搜索引擎抓取的时候就下载垃圾邮件。)
这时候就需要使用firefox插件【No Script】来屏蔽网站上的js,看到类似搜索引擎的内容。
图例:在浏览器中阻止 JavaScript 插件
此外,还有一种选择方法不是很可靠。在搜索引擎中搜索:【站点:域名*敏*感*词*】关键词,把不符合网站期望的关键词去搜索,可以得到很多链接。(这里需要用到一些方法,批量导出所有链接,后面的话题我会继续讲解)
我只能省略筛选过程,大家可以结合视频看一下。
图例:过滤后的网站黑链
我们之所以要这么努力地找出垃圾链接,就是为了记录这些垃圾链接的域名,防止这些垃圾域名被黑客利用来制作新的垃圾链接,并在第一时间拒绝。 . 这些垃圾外链使得百度蜘蛛从垃圾外链访问我们网站上的内容时无法获取任何信息(即返回404状态码,识别为死链接)。随着时间的推移,这些垃圾域名的权重会越来越低(因为死链接被导出,影响了搜索引擎的正常抓取工作),这样我们既保护了自己,也惩罚了敌人。
具体方法是找出垃圾页面——从搜索结果页面和黑链的两张页面,将外链页面整合到一起。如sheet3所示。
图例:合并垃圾外链页面
接下来的处理将使用一个小工具来快速获取这些链接的主域名。
图例:复制左边红框中的链接,点击本地提取,会出现在右边红框中
这样我们就得到了这些垃圾外链页面的主域名,我们只需要在我们的服务器上配置防盗,禁止refer(源)访问这些域名(返回404http状态码)。
2、 处理来自本站的搜索结果页面(黑链处理留作下一个话题,因为大量的linux shell脚本组合在一起):
对于权重较高的网站的站内搜索,一定要注意反垃圾邮件(anti-spam)。如果不采取预防措施,一旦被黑客利用,可能会导致大量搜索页面被百度抓取。黑客利用高权重网站的资源,快速做好黄赌毒行业的关键词排名。但这对我们来说是噩梦般的打击网站。如果不处理,可能会导致以下问题:浪费大量蜘蛛爬取配额来爬取垃圾页面;垃圾页面被搜索引擎收录污染,网站词库被黑客污染,使得网站的行业词和品牌词排名不理想;它对网站...等的形象造成损失。
在执行这种反垃圾邮件策略时,我们需要注意四个方面:站点上的用户能否正常使用;不允许搜索引擎抓取此类页面;拒绝访问垃圾邮件外部链接;页面关键词 上不应出现垃圾邮件。
既然有了明确的目标,相应的应对方案也出来了,那就是:
A 限制来源,拒绝所有来自非网站来源的搜索
B页TKD等关键位置,请勿调用搜索词
C 指定敏感词库过滤规则,敏感词全部用星号*替换(有一定的技术开发要求)
D 在 robots.txt 中声明不允许爬行
E 在页面源码的head部分添加meta robots信息,说明页面不允许索引(noindex)
以上处理可以解决大部分网站上容易出现搜索页面的问题(不限于这种类型的页面,甚至其他页面,只要你不想让搜索引擎对其进行抓取和索引)。
二、我们再来看看死链分析。
死链接,站长工具的死链接提交工具的帮助文档里有详细的说明,我只需要补充一些。
一般有几种类型的死链接:内部死链接和外部死链接。
内部死链就是我们网站上出现的死链。由于种种原因,当百度蜘蛛抓取链接时无法获取到内容时,就被识别出来了。大多数情况下,对于我们来说,这种死链接是可以通过某种方式避免的,所以是可控的。同时,由于死链页面的链接都是我们网站上的页面,而且死链页面对搜索引擎非常不友好,如果不加,很可能导致搜索引擎及时处理。无法成功抓取网站上有价值的页面,间接导致“部分掉电”(抓取某些页面的周期越来越长,快照更新慢,排名不上去等) .
内部死链问题比较严重,首先要处理内部死链。
并且我们可以在百度站长工具中慢速获取死链数据,按照一定的逻辑方式进行排序和划分,定位问题所在。接下来,我将解释死链接数据分析。
通过在页面上预览死链接信息,任何人都知道怎么做,所以我不需要过多解释。对于死链问题,不需要每天下载表格进行分析。你只需要每天看数据,看看有没有突然死链,找出原因并处理(一般发生的规模比较大,比较容易被发现,但也是必须的。紧急处理);其次,我们需要定期对死链接进行更彻底的数据分析,看看是否存在平时不被关注的死链接(一般范围较小,检测起来会比较困难,但如果长期任其发展,可能会出大问题)。
图注:一般突然出现的大量死链接很容易被检测到,最好能确定原因
图例:这是早期定位的问题。虽然提交了解决方案,但是被程序员无视了,然后最近突然爆发了。因此,即使是小问题也要引起足够的重视(由于发生后及时处理,没有太严重的问题)
接下来简单说一下在百度站长工具中批量下载死链数据,合并数据进行统一处理。
链内死链接(子域 A 指向子域 A)和出站死链接(子域 A 指向子域 BCD...)通常更容易分析。让我们重点关注入站死链接(子域 BCD...)指向子域 A)做一些批处理。
图注:数据可以以csv(逗号分隔符)格式下载,可以用excel轻松处理;下面有官方帮助文档。
在这里,您可以尝试点击【下载数据】,Firefox 会自动将文件下载到您设置的位置。
这里告诉你一个小技巧,你可以点击下载列表中对应的文件,复制下载链接,粘贴出来。
:///&download=1&type=3&day=2016-02-30&f=dead_link&key=
相信帅哥已经看过了,site=是指定你的网站域名,day=2016-02-30是指定你需要的日期。type=3 是指定要下载的数据【链接到死链接】,type=2 是链接出死链接,type=1 是内链死链接。其他参数不需要了解太多。
想了很多的朋友肯定会想,如果我处理日期参数,可以直接批量下载这些文件吗?对的,这是可能的。这里就需要利用excel的强大功能了。
首先手动制作两行URL,然后选择,从右下角左键单击并按住,下拉,您会发现excel已经自动为您完成了URL。很方便。
松开左键,得到想要的结果
然后,你可以复制这些网址,然后进入Firefox,使用我们之前安装的Launch Clipboard插件,使用它的快捷键alt+shift+K批量打开上图中的链接,然后我们的Firefox浏览器这些文件将自动下载并存储到我们指定的位置。
来,我们来看看收获的结果:
好像没问题?但是这么多表格要一张一张打开吗?
当然不是。让我们来看看某种形式的样子。看见?下面是录制时间。
换句话说,如果我们能找到一种方法来合并这些文件,那么也有一种方法来区分日期。