搜索引擎禁止的方式优化网站(我教防范搜索引擎搜索你网站内容的方法,如何不让搜索引擎抓取你的网站信息)

优采云 发布时间: 2022-04-16 00:33

  搜索引擎禁止的方式优化网站(我教防范搜索引擎搜索你网站内容的方法,如何不让搜索引擎抓取你的网站信息)

  很多玩hack的朋友都知道,谷歌搜索能力很强。通过谷歌黑客技术,您可以在您的网站上找到相关的敏感文件和文件内容。

  但很多人不知道如何预防。这里教大家一个防止搜索引擎搜索你的网站内容的方法,以及如何防止搜索引擎抓取你的网站信息。

  首先是在 网站 文件夹中创建一个 robots.txt 文件。什么是机器人,即:搜索引擎利用蜘蛛程序自动访问互联网上的网页,获取网页信息。当蜘蛛访问一个网站时,它会首先检查网站的根域下是否有一个名为robots.txt的纯文本文件,这个文件用来指定蜘蛛在你的网站 爬取范围在 . 您可以在 网站 中创建 robots.txt,在文件中声明您不想被搜索引擎 收录 搜索的 网站 部分或指定搜索engine 只是 收录 特定的部分。robots.txt 文件仅在您的 网站 收录您不希望搜索引擎成为 收录 的内容时才需要。

  也许在你创建了 robots.txt 文件之后,你可能会发现你的 网站 内容仍然会被搜索到,但是你网页上的内容不会被抓取、索引和显示。只有您的相关页面的其他 网站 描述。

  防止搜索引擎在搜索结果中显示网页快照并且只显示索引网页的方法是

  要防止所有搜索引擎显示您的 网站 快照,请将此元标记放置在您网页的部分中:

  要允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标记:

  robots.txt 文件的格式

  “robots.txt”文件收录一条或多条以空行分隔的记录(以 CR、CR/NL 或 NL 结尾),每条记录的格式如下:

  “:”。

  在这个文件中可以使用#作为注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 和 Allow 行。详细情况如下:

  用户代理:

  本项的值用于描述搜索引擎机器人的名称,计算机数据“如何防止搜索引擎抓取你的网站信息”()。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个机器人会受到“robots.txt”的限制。对于此文件,必须至少有一个 User-agent 记录。如果此项的值设置为 *,则对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。如果在“robots.txt”文件中,添加“User-agent: SomeBot”和几行Disallow和Allow行,那么“SomeBot”的名称只受“User-agent: SomeBot”后面的Disallow和Allow行的限制。

  不允许:

  该项目的值用于描述一组不想被访问的 URL。该值可以是完整路径,也可以是路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/,而“Disallow:/help/”允许机器人访问/help.html、/helpabc.html,但是不是/帮助/。“Disallow:”表示允许机器人访问网站的所有URL,且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件,则 网站 对所有搜索引擎机器人开放。

  允许:

  此项的值用于描述您希望访问的一组 URL。与 Disallow 项类似,该值可以是完整路径,也可以是路径前缀。以 Allow 项的值开头的 URL 允许机器人访问。例如“允许:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认为 Allow,因此 Allow 通常与 Disallow 结合使用,以允许访问某些网页,同时禁止访问所有其他 URL。

  需要注意的是,Disallow 和 Allow 行的顺序是有意义的,机器人会根据第一个匹配的 Allow 或 Disallow 行来判断是否访问 URL。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线