搜索引擎如何抓取网页(动态网页在网络空间中并不是的应用(spidertraps)(图))

优采云发布时间: 2021-10-30 15:14

　　动态网页实际上并不存在于网页空间中，只有当用户在变量区输入值时才会生成动态网页。而且我们都知道，搜索引擎蜘蛛再聪明，也只是一个搜索程序。他们不能像真人一样选择变量和输入值。

　　您还可以将查询编辑为主页上的链接，使该链接成为预定义的网站目录查询。用户可以在搜索表单中输入查询条件进行查询，通常动态脚本需要一定的信息来返回页面内容，最常见的如Cookie数据、SessionID或环境变量等。但是对于搜索引擎 Spider 程序，他们不可能知道如何使用您的搜索功能或要问什么问题。正因为如此，Spider 对网站的搜索往往不得不在一个动态站点之前停止。

　　此外，动态页面的 URL 收录一个问号 (?) 和一个百分号 (%)。还有一些符号，例如 &、%、+ 和 $，它们经常出现在动态页面的 URL 中。此类 URL 称为“环境变量”（查询字符串）。但是，大多数 SPIDER 无法解释符号“？”之后的字符。

　　一些搜索引擎在检索页面时，往往拒绝检索某些目录中的静态页面（即动态页面保存为静态页面）的URL。

　　搜索引擎的 SPIDER 不愿意读取放置在 cgi-bin 目录下的网页，或者 URL 中收录带有“？”符号的字符。原因是如果CGI中提供了“无限”数量的URL，SPIDER经常会因为检索这些“无限”的网页而陷入死循环。这被称为蜘蛛陷阱。数据库程序也可能会产生与 SPIDER 类似的情况。因此，为了避免可能出现的陷阱，Spider 不会读取“?”后面的字符。在带有符号“？”的 URL 中。

　　如果Spider被你的服务器困住了，不仅对Spider本身不利，而且Spider反复请求访问你的网站页面也会导致你的服务器

0

2021-10-30

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(动态网页在网络空间中并不是的应用(spidertraps)(图))

0 个评论

发起人