搜索引擎如何抓取网页(如何利用站长平台禁止抓取网站死链接的死链接?(组图))
优采云 发布时间: 2021-09-28 19:19搜索引擎如何抓取网页(如何利用站长平台禁止抓取网站死链接的死链接?(组图))
网站 离不开搜索引擎。搜索引擎站长平台上线后,很多网站优化操作都可以通过搜索引擎站长平台进行监控,效果直接明显。例如,向搜索引擎提交更新的 URL 链接,更新 网站robots 协议等。本文主要介绍如何使用站长平台禁止爬取网站的死链接。
网站在操作中,处理不当会造成很多死链接(相关阅读《死链接的原因是什么》),这些死链接需要及时处理,否则对网站的影响会很明显。通常,在网站中发现死链接后,需要及时处理。但具体情况需要分别对待。
例如,网站 网页不能因为单个页面被删除而打开。这种情况比较简单。删除网站的单页,然后查看是否有该页的内链。如果是这样,您需要取消所有链接的页面。否则,没有其他链接被链接,所以直接删除它们。这种死链接的数量比较少,处理起来也比较简单。但是,如果网站存在大量死链接,如伪静态、网站改版等,则需要提交网站改版规则和robots协议规则。具体步骤如下:
1.整理所有 网站 死链接
2.开启搜索引擎站长平台
3. 点击站长平台网页抓图》不良链接提交,有文件提交和规则提交两种。文件提交方面,将所有的死链接整理成txt文件或xml文件,然后上传到网站根目录;并且规则提交比较简单,比如(表示把silian目录下的所有链接都提交。或者?(表示把silian里的死链接都包括在内)。
如何利用搜索引擎平台禁止爬取死链接
4. 提交robots协议,如伪静态设置,需要屏蔽原动态链接,在robots协议中添加
不允许: /?*
这确保了 网站 所有动态死链接都不会被搜索引擎索引。
另外值得注意的是,网站 修订版是最容易产生死链接的。因此,为了避免死链接被搜索引擎抓取,站长平台提供了网站修改规则,可以根据规则提交。如果能写出相应的正则表达式,就可以使用正则表达式,方便快捷;如果网站不能使用标准正则表达式,可以提交新旧URL对,直接提交所有新旧链接上传。
网站修订规则