网页抓取解密(为什么一个完全封闭的网页竟然能被360搜索引擎到?)

优采云 发布时间: 2022-01-22 16:02

  网页抓取解密(为什么一个完全封闭的网页竟然能被360搜索引擎到?)

  第一步,百度工程师创建一个简单的网页,保存在服务器的个人文件夹中,没有任何外部链接。由于搜索引擎爬虫只能通过链接来抓取网页,所以这个网页是完全封闭的,无法被搜索引擎抓取。到达。

  第二步,百度工程师用360浏览器打开网页。并且通过各种搜索引擎的不断测试,表明网页没有被抓取。

  但大约2个小时后,令人惊讶的事情发生了。百度工程师尝试在360搜索中输入上面的关键词,结果是这个网页出现在搜索结果的第一行,可以直接点击浏览网页内容。在百度、谷歌、搜狗、搜搜等其他浏览器中搜索相同内容,仍无法返回对应网页。

  为什么一个完全封闭的网页可以被360搜索引擎抓取并显示在搜索结果中?百度工程师解释说,核心原因是他用360浏览器打开了这个网页。

  在360浏览器的隐私政策中规定,360安全浏览器会记录用户电脑上浏览历史的有用信息。这些信息包括:浏览历史、用户访问过的大多数网页的截图、cookie 或网络存储数据、访问 网站 时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、未关闭的标签列表当窗口关闭时,使用内置安全下载器的下载历史记录,保存在浏览器插件中的内容等。

  360搜索的爬虫是根据360浏览器抓取的数据信息,然后去对应的网页抓取内容快照。这样一来,360搜索就可以成功爬取一个完全封闭的网页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线