搜索引擎如何抓取网页(GoogleHacking防范搜索引擎搜索你网站内容的方法)
优采云 发布时间: 2021-11-18 21:09搜索引擎如何抓取网页(GoogleHacking防范搜索引擎搜索你网站内容的方法)
许多黑客行动主义者都知道 Google 具有强大的搜索功能,对吗?您可以通过 Google Hacking 技术在您的 网站 上找到相关的敏感文件和文件内容。
但是很多人不知道如何预防。这里我教你一种防止搜索引擎搜索你的内容的方法。
首先是在您的 网站 以下目录中创建一个 robots.txt 文件。什么是机器人?即:搜索引擎利用蜘蛛程序自动访问互联网上的网页,获取网页信息。当蜘蛛访问一个网站时,它首先会检查网站的根域下是否有一个名为robots.txt的纯文本文件。这个文件是用来指定蜘蛛在你的网站 爬取范围上的。您可以在您的网站中创建一个robots.txt,并在文件中声明网站中不想被搜索引擎收录搜索的部分或指定那个搜索引擎只是收录的特定部分。如果您的 网站 收录您不想被 < 搜索的内容,则您只需要使用 robots.txt 文件 @收录。如果你想要搜索引擎收录网站上的一切,请不要创建robots.txt文件
可能你发现创建robots.txt文件后你的网站内容仍然会被搜索,但是你网页上的内容不会被抓取、索引和显示。它将显示在百度搜索结果中。它只是您相关网页的其他 网站 描述。
禁止搜索引擎在搜索结果中显示网页快照,仅索引网页的方法是
为了防止所有搜索引擎显示您的 网站 快照,请将此元标记放在页面的一部分中:
要允许其他搜索引擎显示快照,但只阻止百度显示,请使用以下标签:
robots.txt 文件的格式
“robots.txt”文件收录一个或多个记录,由空行分隔(以CR、CR/NL或NL作为终止符)。每条记录的格式如下:
“:”。
可以在这个文件中使用#做注释,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,后跟几行 Disallow 和 Allow 行。详细情况如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,表示多个robots会被“robots.txt”限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则对任何机器人都有效。在“robots.txt”文件中,只能有“User-agent:*”这样的一条记录。如果在“robots.txt”文件中添加“User-agent: SomeBot”和几行禁止和允许行,则名称“SomeBot”仅受“User-agent: SomeBot”后的禁止和允许行限制。
不允许:
该项的值用于描述一组不想被访问的 URL。该值可以是完整路径或路径的非空前缀。机器人不会访问以 Disallow 项的值开头的 URL。例如,“Disallow:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“Disallow:/help/”则允许机器人访问/help.html、/helpabc。 html,但不是访问 /help/index.html。“Disallow:”表示允许机器人访问网站的所有URL,并且“/robots.txt”文件中必须至少有一条Disallow记录。如果“/robots.txt”不存在或为空文件,则此网站 对所有搜索引擎机器人开放。
允许:
此项的值用于描述您要访问的一组 URL。与 Disallow 项类似,该值可以是完整路径或路径前缀。允许机器人访问以 Allow 项的值开头的 URL。例如,“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。网站 的所有 URL 默认都是 Allow 的,所以 Allow 通常与 Disallow 结合使用,允许访问某些网页,同时禁止访问所有其他 URL。
重要的是要注意 Disallow 和 Allow 行的顺序是有意义的。机器人将根据匹配成功的第一个 Allow 或 Disallow 行来确定是否访问 URL。