seo优化搜索引擎工作原理(搜索引擎上存在的网页数量是数以百亿千亿计吗?)

优采云 发布时间: 2021-10-24 03:16

  seo优化搜索引擎工作原理(搜索引擎上存在的网页数量是数以百亿千亿计吗?)

  现在互联网上有数百亿个网页。这些 网站 存储在不同的服务器上。

  分布于世界各地的数据中心和机房。

  对于搜索引擎来说,爬取互联网上的所有网页几乎是不可能的。从目前公布的数据来看

  从一个角度来看,容量最大的搜索引擎只抓取了整个网页的 40% 左右。一个原因是

  爬虫技术存在瓶颈,无法遍历所有网页,有很多网页无法从其他网页的链接中找到;其他

  原因是存储技术和处理技术的问题。如果按每页平均大小计算为20K(包括图片),

  100亿个网页的容量为100×2000G字节。即使可以存储,下载还是有问题(根据每台机器

  每秒下载20K,下载所有网页需要340台机器一年不间断下载)。相同的

  届时,由于数据量大,在提供搜索时会影响效率。因此,许多搜索引擎网络蜘蛛

  蜘蛛只抓取那些重要的网页,评价重要性的主要依据是某个网页的链接深度。

  有人认为,当搜索引擎收到搜索请求时,它会实时查询世界上所有服务器的信息。

  而把查询结果展示在用户面前,这其实是一种误解。如果搜索引擎是这样工作的,那么查询

  一条信息可能要等几年才能得到搜索结果,这不包括这段时间对网页的更改。

  事实上,搜索引擎会提前访问大量的网站,并将部分信息提前存储在这些网页上。

  这样,当用户搜索时,他们实际上是在搜索引擎自己的服务器上进行查询。

  就像我们在自己的电脑上查找文件一样。

  搜索引擎是一项非常复杂的技术,但其基本原理并不复杂。它的基本技术包括爬行、索引和排序。

  

  搜索引擎基本工作原理图

  一、获取

  搜索引擎会首先发出一种叫做“蜘蛛”或“机器人”的软件,按照一定的规则进行扫描。

  追踪存在于互联网上的网站,并按照网页上的链接从一个页面到另一个页面,从一个网站到另一个

  一个网站。为了保证采集的信息是最新的,也会返回到已经爬取过的网页。

  二、索引

  分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页所在位置)

  URL、编码类型、所有关键词、关键词位置、生成时间、大小以及页面内容中收录的其他网页

  链接关系等),根据一定的相关性算法进行大量复杂的计算,每个网页都以页面文字为基础

  中和超链接中每个关键词的相关性(或重要性),然后利用这些相关信息来构建网页索引数据库。

  三、排序

  当用户输入关键词进行搜索时,搜索系统程序从web索引数据库中找到匹配的关键词

  所有相关页面。因为这个关键词的所有相关网页的相关度已经计算出来了,你只需要关注已有的相关网页

  数值排名的程度,相关度越高,排名越高。

  广告空间

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线