我们可以用robots.txt来做什么?-八维教育
优采云 发布时间: 2021-05-02 18:01我们可以用robots.txt来做什么?-八维教育
首先,让我介绍一下robots.txt是什么:robots.txt是在搜索引擎中访问网站时要检查的第一个文件。 Robots.txt文件告诉Spider可以在服务器上查看哪些文件。搜索蜘蛛访问网站时,它将首先检查网站根目录中是否存在robots.txt。如果存在,搜索机器人将根据文件的内容确定访问范围;如果文件不存在,则所有'S搜索蜘蛛都将能够访问网站上所有不受密码保护的页面。最后,robots.txt必须放置在网站的根目录中。
您可以参考Google,百度和腾讯编写的机器人:
每个人都了解了robots.txt之后,我们该如何处理robots.txt?
1、使用robots.txt阻止相似度高的页面或没有内容的页面。
我们知道,在搜索引擎收录网页之后,它将“查看”该网页,并且当两个网页的相似度很高时,搜索引擎将删除其中之一,这将减少您的访问量有点网站得分。
假设以下两个链接的内容几乎相同,则应该屏蔽第一个链接。
/ XXX?123
/ 12 3. html
有很多链接,例如第一个链接,那么我们如何阻止它?实际上,仅阻止/ XXX吗?阻止所有链接。
代码如下:
不允许:/ XXX?
类似地,某些没有内容的页面也可以用相同的方法来阻止。
2、使用robots.txt阻止冗余链接,并通常保留静态链接(HTML,htm,shtml等)。
因为网站通常具有指向单个页面的多个链接,这会使搜索引擎对网站的友好度降低。为了避免这种情况,我们可以使用robots.txt删除非主要链接。
例如,以下两个链接指向同一页面:
/ OOO?123
/ 12 3. html
然后我们应该摆脱第一个垃圾,代码如下:
不允许:/ OOO?123
3、使用robots.txt阻止无效链接
无效链接是曾经存在的网页。由于修订或其他原因失去效力后,它变成了死链接。也就是说,它看起来像一个普通的Web链接,但是单击后无法打开相应的网页。
例如,由于目录地址的更改,原来在目录/ seo下的所有链接现在都是无效链接,那么我们可以使用robots.txt阻止他,代码如下:
不允许:/ seo /
4、告诉搜索引擎您的sitemap.xml地址
使用robots.txt告诉搜索引擎您的sitemap.xml文件的地址,而无需在网站上添加指向sitemap.xml的链接。详细的代码如下:
站点地图:您的站点地图地址
以上是robots.txt的基本用法。一个好的网站不可避免地会有一个好的robots.txt,因为robots.txt是搜索引擎了解您的一种方法网站。此外,在这里,我建议一种更适合wordpress用户的robots.txt编写方法:
用户代理:*
不允许:/ wp-
不允许:/ feed /
不允许:/ comments / feed
不允许:/ trackback /
站点地图:
最后,如果您认为以上内容不足以满足您的需求,则可以从Google或百度提供的正式robots.txt用户指南中学习:
百度:
Google: