我们可以用robots.txt来做什么?-八维教育

优采云 发布时间: 2021-05-02 18:01

  我们可以用robots.txt来做什么?-八维教育

  首先,让我介绍一下robots.txt是什么:robots.txt是在搜索引擎中访问网站时要检查的第一个文件。 Robots.txt文件告诉Spider可以在服务器上查看哪些文件。搜索蜘蛛访问网站时,它将首先检查网站根目录中是否存在robots.txt。如果存在,搜索机器人将根据文件的内容确定访问范围;如果文件不存在,则所有'S搜索蜘蛛都将能够访问网站上所有不受密码保护的页面。最后,robots.txt必须放置在网站的根目录中。

  您可以参考Google,百度和腾讯编写的机器人:

  每个人都了解了robots.txt之后,我们该如何处理robots.txt?

  1、使用robots.txt阻止相似度高的页面或没有内容的页面。

  我们知道,在搜索引擎收录网页之后,它将“查看”该网页,并且当两个网页的相似度很高时,搜索引擎将删除其中之一,这将减少您的访问量有点网站得分。

  假设以下两个链接的内容几乎相同,则应该屏蔽第一个链接。

  / XXX?123

  / 12 3. html

  有很多链接,例如第一个链接,那么我们如何阻止它?实际上,仅阻止/ XXX吗?阻止所有链接。

  代码如下:

  不允许:/ XXX?

  类似地,某些没有内容的页面也可以用相同的方法来阻止。

  2、使用robots.txt阻止冗余链接,并通常保留静态链接(HTML,htm,shtml等)。

  因为网站通常具有指向单个页面的多个链接,这会使搜索引擎对网站的友好度降低。为了避免这种情况,我们可以使用robots.txt删除非主要链接。

  例如,以下两个链接指向同一页面:

  / OOO?123

  / 12 3. html

  然后我们应该摆脱第一个垃圾,代码如下:

  不允许:/ OOO?123

  3、使用robots.txt阻止无效链接

  无效链接是曾经存在的网页。由于修订或其他原因失去效力后,它变成了死链接。也就是说,它看起来像一个普通的Web链接,但是单击后无法打开相应的网页。

  例如,由于目录地址的更改,原来在目录/ seo下的所有链接现在都是无效链接,那么我们可以使用robots.txt阻止他,代码如下:

  不允许:/ seo /

  4、告诉搜索引擎您的sitemap.xml地址

  使用robots.txt告诉搜索引擎您的sitemap.xml文件的地址,而无需在网站上添加指向sitemap.xml的链接。详细的代码如下:

  站点地图:您的站点地图地址

  以上是robots.txt的基本用法。一个好的网站不可避免地会有一个好的robots.txt,因为robots.txt是搜索引擎了解您的一种方法网站。此外,在这里,我建议一种更适合wordpress用户的robots.txt编写方法:

  用户代理:*

  不允许:/ wp-

  不允许:/ feed /

  不允许:/ comments / feed

  不允许:/ trackback /

  站点地图:

  最后,如果您认为以上内容不足以满足您的需求,则可以从Google或百度提供的正式robots.txt用户指南中学习:

  百度:

  Google:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线