搜索引擎如何抓取网页(动态网页在网络空间中并不是的应用(spidertraps)(图))
优采云 发布时间: 2021-10-30 15:14搜索引擎如何抓取网页(动态网页在网络空间中并不是的应用(spidertraps)(图))
动态网页实际上并不存在于网页空间中,只有当用户在变量区输入值时才会生成动态网页。而且我们都知道,搜索引擎蜘蛛再聪明,也只是一个搜索程序。他们不能像真人一样选择变量和输入值。
您还可以将查询编辑为主页上的链接,使该链接成为预定义的 网站 目录查询。用户可以在搜索表单中输入查询条件进行查询,通常动态脚本需要一定的信息来返回页面内容,最常见的如Cookie数据、SessionID或环境变量等。但是对于搜索引擎 Spider 程序,他们不可能知道如何使用您的搜索功能或要问什么问题。正因为如此,Spider 对 网站 的搜索往往不得不在一个动态站点之前停止。
此外,动态页面的 URL 收录一个问号 (?) 和一个百分号 (%)。还有一些符号,例如 &、%、+ 和 $,它们经常出现在动态页面的 URL 中。此类 URL 称为“环境变量”(查询字符串)。但是,大多数 SPIDER 无法解释符号“?”之后的字符。
一些搜索引擎在检索页面时,往往拒绝检索某些目录中的静态页面(即动态页面保存为静态页面)的URL。
搜索引擎的 SPIDER 不愿意读取放置在 cgi-bin 目录下的网页,或者 URL 中收录带有“?”符号的字符。原因是如果CGI中提供了“无限”数量的URL,SPIDER经常会因为检索这些“无限”的网页而陷入死循环。这被称为蜘蛛陷阱。数据库程序也可能会产生与 SPIDER 类似的情况。因此,为了避免可能出现的陷阱,Spider 不会读取“?”后面的字符。在带有符号“?”的 URL 中。
如果Spider被你的服务器困住了,不仅对Spider本身不利,而且Spider反复请求访问你的网站页面也会导致你的服务器