seo优化搜索引擎工作原理(搜索引擎上存在的网页数量是数以百亿千亿计吗?)
优采云 发布时间: 2021-10-24 03:16seo优化搜索引擎工作原理(搜索引擎上存在的网页数量是数以百亿千亿计吗?)
现在互联网上有数百亿个网页。这些 网站 存储在不同的服务器上。
分布于世界各地的数据中心和机房。
对于搜索引擎来说,爬取互联网上的所有网页几乎是不可能的。从目前公布的数据来看
从一个角度来看,容量最大的搜索引擎只抓取了整个网页的 40% 左右。一个原因是
爬虫技术存在瓶颈,无法遍历所有网页,有很多网页无法从其他网页的链接中找到;其他
原因是存储技术和处理技术的问题。如果按每页平均大小计算为20K(包括图片),
100亿个网页的容量为100×2000G字节。即使可以存储,下载还是有问题(根据每台机器
每秒下载20K,下载所有网页需要340台机器一年不间断下载)。相同的
届时,由于数据量大,在提供搜索时会影响效率。因此,许多搜索引擎网络蜘蛛
蜘蛛只抓取那些重要的网页,评价重要性的主要依据是某个网页的链接深度。
有人认为,当搜索引擎收到搜索请求时,它会实时查询世界上所有服务器的信息。
而把查询结果展示在用户面前,这其实是一种误解。如果搜索引擎是这样工作的,那么查询
一条信息可能要等几年才能得到搜索结果,这不包括这段时间对网页的更改。
事实上,搜索引擎会提前访问大量的网站,并将部分信息提前存储在这些网页上。
这样,当用户搜索时,他们实际上是在搜索引擎自己的服务器上进行查询。
就像我们在自己的电脑上查找文件一样。
搜索引擎是一项非常复杂的技术,但其基本原理并不复杂。它的基本技术包括爬行、索引和排序。
搜索引擎基本工作原理图
一、获取
搜索引擎会首先发出一种叫做“蜘蛛”或“机器人”的软件,按照一定的规则进行扫描。
追踪存在于互联网上的网站,并按照网页上的链接从一个页面到另一个页面,从一个网站到另一个
一个网站。为了保证采集的信息是最新的,也会返回到已经爬取过的网页。
二、索引
分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页所在位置)
URL、编码类型、所有关键词、关键词位置、生成时间、大小以及页面内容中收录的其他网页
链接关系等),根据一定的相关性算法进行大量复杂的计算,每个网页都以页面文字为基础
中和超链接中每个关键词的相关性(或重要性),然后利用这些相关信息来构建网页索引数据库。
三、排序
当用户输入关键词进行搜索时,搜索系统程序从web索引数据库中找到匹配的关键词
所有相关页面。因为这个关键词的所有相关网页的相关度已经计算出来了,你只需要关注已有的相关网页
数值排名的程度,相关度越高,排名越高。
广告空间