搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析：1.蜘蛛)

优采云发布时间: 2021-10-04 23:11

　　搜索引擎的工作过程大致可以分为三个阶段：

　　1. 搜索引擎蜘蛛通过以下链接在互联网上爬取网页信息，并将其存储在原创网页数据库中；

　　其次，索引程序从原创网页数据库中的信息中提取文本和中文分词，建立索引数据库供排名程序随时调用；

　　第三，排名程序根据用户输入的关键词快速检索索引库数据，计算相关性，然后进行排序，生成一定格式的搜索结果页面返回给用户。

　　图片来自网络

　　以下是七点传媒的进一步分析：

　　1.网页抓取

　　每次搜索引擎蜘蛛遇到新文档时，它都会搜索其页面的链接网页。蜘蛛访问网页的过程，其实与普通用户使用浏览器访问网页的过程类似。首先，向页面发出访问请求。服务器接受访问请求并返回HTML代码后，将获取的HTML代码存储在原创页面数据库中。

　　为了提高效率，搜索引擎会使用多个蜘蛛来分布抓取。而且，搜索引擎服务器遍布全球，每个服务器会同时发送多个蜘蛛抓取网页。如果这些搜索引擎蜘蛛重复访问同一个页面，显然会降低工作效率。那么，当蜘蛛访问一个页面时，它如何让一个页面只访问一次呢？只做信息共享。

　　在抓取网页时，搜索引擎会创建两张不同的表，一张表记录已访问过的网站，另一张表记录未访问过的网站。蜘蛛抓取外链页面的URL时，需要下载网站的URL并进行分析。蜘蛛分析完所有的 URL 后，会将 URL 存储在相应的表中。

　　如果此时另一个蜘蛛从其他网站或其他页面中找到了这个URL，它会将其与访问列表进行比较。如果已经被访问过，蜘蛛会自动丢弃 URL 不再访问。

　　2.创建索引

　　面对海量的原创网页数据库，搜索引擎必须对蜘蛛抓取的原创网页进行预处理，以便用户快速方便地找到搜索结果。

　　网页预处理的主要过程是为网页建立全文索引，然后开始对网页进行分析，最后建立倒排文件（也称为倒排索引）。经过搜索引擎的分析处理后，网页不再是原来的网页，而是一个以词为单位，能够反映网页主题内容的文档。

　　网页分析流程如下：

　　①通常需要先判断网页的类型；

　　②衡量其重要性和丰富性；

　　③分析超链接；

　　④分词；

　　⑤删除重复的网页。

　　在数据索引中，最复杂的结构就是建立一个索引库，索引分为文档索引和关键词索引。每个网页的唯一docID编号由文档索引分配，根据docID编号可以从网页中检索每个wordID的次数、位置、大小和格式。最后形成wordID的数据列表。

　　倒排索引是最简单、实用的倒排索引，需要记录更多的信息。在词对应的倒排列表中，除了记录文档编号外，还会记录词频信息，方便日后计算查询与文档的相似度。

　　倒排索引的形成过程如下：

　　① 搜索引擎使用分词系统自动将文档划分为词序列；

　　② 给每个词分配一个唯一的词号；

　　③记录含有该词的文件。

　　3.咨询服务

　　当我们在搜索引擎中输入一个关键词并点击“搜索”按钮时，搜索引擎程序会开始对搜索词进行分段，然后根据情况判断是否需要启动整合搜索，然后找出错别字和拼写错误，并删除停用词。

　　然后，搜索引擎程序会从索引库中找到收录目标关键词的相关网页，最后根据格式返回搜索结果页面。

　　搜索结果的排名是查询服务的核心，它决定了搜索引擎的质量和用户的满意度。其实，影响搜索结果排名的因素有很多，但最重要的是网页内容的相关性。影响相关性的主要因素包括以下五个方面：

　　①关键词常用

　　在分词后的多个关键词中，使用频率较低的词对搜索词的意义贡献更大。相反，常用词的贡献很小。当达到一定限度时，就是一个停用词，对页面没有任何影响。

　　②词频与密度

　　一般情况下，搜索词的密度与其在页面上出现的次数呈正相关。次数越多，密度越大，页面与搜索词的关系越密切。

　　③关键词位置和形式

　　页面关键词出现的格式和位置记录在索引库中，当关键词出现在标题标签、黑体、H1等中时，表示该页面与<高度相关@关键词。

　　④关键词距离

　　关键词拆分成多个关键词后，如果能连续完整的出现在页面上，或者关键词之间的距离比较近，说明与搜索词相关高的。

　　⑤ 链接分析和页面权重

　　页面之间的链接和权重关系也会影响关键词的相关性，其中最重要的是锚文本。在页面上将搜索词作为锚文本的导入链接越多，页面的相关性就越高。链接分析的范围还包括链接源页面本身的主题、锚文本周围的文本等。

　　以上是“搜索引擎是如何工作的？” “全部内容，感谢您的阅读，希望对您有所帮助！

0

2021-10-04

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析：1.蜘蛛)

0 个评论

发起人