seo优化搜索引擎工作原理(搜索引擎上存在的网页数量是数以百亿千亿计吗？)

优采云发布时间: 2021-10-24 03:16

　　现在互联网上有数百亿个网页。这些网站存储在不同的服务器上。

　　分布于世界各地的数据中心和机房。

　　对于搜索引擎来说，爬取互联网上的所有网页几乎是不可能的。从目前公布的数据来看

　　从一个角度来看，容量最大的搜索引擎只抓取了整个网页的 40% 左右。一个原因是

　　爬虫技术存在瓶颈，无法遍历所有网页，有很多网页无法从其他网页的链接中找到；其他

　　原因是存储技术和处理技术的问题。如果按每页平均大小计算为20K（包括图片），

　　100亿个网页的容量为100×2000G字节。即使可以存储，下载还是有问题（根据每台机器

　　每秒下载20K，下载所有网页需要340台机器一年不间断下载）。相同的

　　届时，由于数据量大，在提供搜索时会影响效率。因此，许多搜索引擎网络蜘蛛

　　蜘蛛只抓取那些重要的网页，评价重要性的主要依据是某个网页的链接深度。

　　有人认为，当搜索引擎收到搜索请求时，它会实时查询世界上所有服务器的信息。

　　而把查询结果展示在用户面前，这其实是一种误解。如果搜索引擎是这样工作的，那么查询

　　一条信息可能要等几年才能得到搜索结果，这不包括这段时间对网页的更改。

　　事实上，搜索引擎会提前访问大量的网站，并将部分信息提前存储在这些网页上。

　　这样，当用户搜索时，他们实际上是在搜索引擎自己的服务器上进行查询。

　　就像我们在自己的电脑上查找文件一样。

　　搜索引擎是一项非常复杂的技术，但其基本原理并不复杂。它的基本技术包括爬行、索引和排序。

　　搜索引擎基本工作原理图

　　一、获取

　　搜索引擎会首先发出一种叫做“蜘蛛”或“机器人”的软件，按照一定的规则进行扫描。

　　追踪存在于互联网上的网站，并按照网页上的链接从一个页面到另一个页面，从一个网站到另一个

　　一个网站。为了保证采集的信息是最新的，也会返回到已经爬取过的网页。

　　二、索引

　　分析索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页所在位置）

　　URL、编码类型、所有关键词、关键词位置、生成时间、大小以及页面内容中收录的其他网页

　　链接关系等），根据一定的相关性算法进行大量复杂的计算，每个网页都以页面文字为基础

　　中和超链接中每个关键词的相关性（或重要性），然后利用这些相关信息来构建网页索引数据库。

　　三、排序

　　当用户输入关键词进行搜索时，搜索系统程序从web索引数据库中找到匹配的关键词

　　所有相关页面。因为这个关键词的所有相关网页的相关度已经计算出来了，你只需要关注已有的相关网页

　　数值排名的程度，相关度越高，排名越高。

　　广告空间

0

2021-10-24

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册