搜索引擎如何抓取网页(为什么谷歌无法搜索深网互联网中只有4%-20%的网页)

优采云 发布时间: 2022-03-10 08:22

  搜索引擎如何抓取网页(为什么谷歌无法搜索深网互联网中只有4%-20%的网页)

  十大深度网络搜索引擎:pipl、My life、Yippy、Surfwax、Way Back Machine、Google Scholar、DuckDuckgo、Fazzle、not Evil、Start Page

  为什么谷歌不能搜索深网

  

  互联网上只有4%-20%的网页是可见的,96%的网页隐藏在深处。这在深网和暗网有什么区别中提到。其实主要原因是Google等这类搜索引擎在检索网页时,首先查看的文件叫做robots.txt。当没有该文件时,意味着它只能索引该网页中的信息而没有密码保护。

  皮普尔

  

  Pipl 设置的 robots 文件可以与许多深度网络数据库交互,因此可以对出版物、法庭记录和个人数据等深度资源进行索引。

  我的生活

  

  我的生活上大约有2.25亿个公共页面,其中收录大量的个人信息,例如电子邮件地址、家庭信息、电话号码、家庭住址等,甚至是你曾经居住过的地方能够被找到的。它收录有关至少 18 岁的美国公民的信息。

  伊皮

  

  Yippy 主要使用其他搜索引擎来获取结果信息,但特别是它不会留下任何网页浏览记录,包括查看电子邮件或合同条款。

  冲浪蜡

  

  Surfwax 中还有许多其他功能。这不是一个简单的直接搜索。焦点词功能可以独立设置搜索范围,识别其他相关内容,显示检索所​​需时间,可以更加贴切。提供最佳搜索结果。

  回程机

  

  这是一个互联网档案馆的前端,收录 100 TB 的信息,只能通过 URL 访问,但 Way Back Machine 允许公众上传数据,但其中大部分是由爬虫检索的,其中收录 1500 亿条捕获的信息。

  谷歌学术

  

  这是一个允许访问学术文献、出版物和其他学术资料的网页,只要你可以通过关键词搜索,还可以配备谷歌学术搜索时直接自动访问期刊和数据库。

  鸭鸭

  

  除了常规搜索之外,DuckDuckgo 可以自定义搜索选项,关注结果的正确性,而不是数量,并且还有一个更简洁的界面,不跟踪搜索。

  发呆

  

  这个引擎和 Yippy 很像,也是一个元网络索引。追求是最快最准确的,所以一般无论搜索关键词是什么,最好的结果都会出现在SERPS页面上,还有20个其他的结果。

  不邪恶

  

  这个搜索引擎最大的不同是它不以盈利为目的,没有广告和跟踪,算法和功能不断更新,使其更具竞争力,不仅界面直观,还可以匿名访问。

  首页

  

  对于不使用 Tor 类浏览器的人来说,这是可以很好地保护个人隐私的搜索引擎之一,它不记录 IP 地址,搜索历史记录也受到保护。

  结论:深网前十大搜索引擎能更好地帮助人们进行搜索,但不要用在不好的地方,尤其是暗网。当您进入暗网时,您会成为目标吗?.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线