网页抓取解密(为什么一个完全封闭的网页竟然能被360搜索引擎到?)
优采云 发布时间: 2021-09-26 12:11网页抓取解密(为什么一个完全封闭的网页竟然能被360搜索引擎到?)
第一步,百度工程师制作一个简单的网页,保存在服务器的个人文件夹中,没有任何外部链接。由于搜索引擎爬虫只能通过链接抓取网页,因此该网页完全封闭,搜索引擎无法抓取。到达。
第二步,百度工程师用360浏览器打开网页。并且通过各种搜索引擎的不间断测试,显示没有一个网页被抓取。
但大约2小时后,令人震惊的事情发生了。百度工程师尝试在360搜索中输入上述关键词。结果,该网页出现在搜索结果的第一行,您可以直接点击浏览网页内容。改用百度、谷歌、搜狗、搜搜等浏览器搜索相同内容,仍无法返回相应网页。
为什么一个完全关闭的网页可以被360搜索引擎抓取并显示在搜索结果中?百度工程师解释,核心原因是他用360浏览器打开了这个网页。
在360浏览器的隐私政策中,声明360安全浏览器会在用户电脑上记录有关浏览历史的实用信息。这些信息包括:浏览历史、用户访问过的大部分网页截图、cookies或网络存储数据、访问网站时留下的临时文件、地址栏中的下拉列表、最近关闭的标签列表、窗口关闭时未关闭的标签列表、使用内置安全下载器的下载历史、浏览器插件中保存的内容等。
360搜索的爬虫是根据360浏览器抓取到的数据信息,然后去对应的网页抓取内容快照。因此,360搜索可以成功抓取一个完全封闭的网页。