搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析:1.蜘蛛)

优采云 发布时间: 2021-10-04 23:11

  搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析:1.蜘蛛)

  搜索引擎的工作过程大致可以分为三个阶段:

  1. 搜索引擎蜘蛛通过以下链接在互联网上爬取网页信息,并将其存储在原创网页数据库中;

  其次,索引程序从原创网页数据库中的信息中提取文本和中文分词,建立索引数据库供排名程序随时调用;

  第三,排名程序根据用户输入的关键词快速检索索引库数据,计算相关性,然后进行排序,生成一定格式的搜索结果页面返回给用户。

  

  图片来自网络

  以下是七点传媒的进一步分析:

  1.网页抓取

  每次搜索引擎蜘蛛遇到新文档时,它都会搜索其页面的链接网页。蜘蛛访问网页的过程,其实与普通用户使用浏览器访问网页的过程类似。首先,向页面发出访问请求。服务器接受访问请求并返回HTML代码后,将获取的HTML代码存储在原创页面数据库中。

  为了提高效率,搜索引擎会使用多个蜘蛛来分布抓取。而且,搜索引擎服务器遍布全球,每个服务器会同时发送多个蜘蛛抓取网页。如果这些搜索引擎蜘蛛重复访问同一个页面,显然会降低工作效率。那么,当蜘蛛访问一个页面时,它如何让一个页面只访问一次呢​​?只做信息共享。

  在抓取网页时,搜索引擎会创建两张不同的表,一张表记录已访问过的网站,另一张表记录未访问过的网站。蜘蛛抓取外链页面的URL时,需要下载网站的URL并进行分析。蜘蛛分析完所有的 URL 后,会将 URL 存储在相应的表中。

  如果此时另一个蜘蛛从其他网站 或其他页面中找到了这个URL,它会将其与访问列表进行比较。如果已经被访问过,蜘蛛会自动丢弃 URL 不再访问。

  2.创建索引

  面对海量的原创网页数据库,搜索引擎必须对蜘蛛抓取的原创网页进行预处理,以便用户快速方便地找到搜索结果。

  网页预处理的主要过程是为网页建立全文索引,然后开始对网页进行分析,最后建立倒排文件(也称为倒排索引)。经过搜索引擎的分析处理后,网页不再是原来的网页,而是一个以词为单位,能够反映网页主题内容的文档。

  网页分析流程如下:

  ①通常需要先判断网页的类型;

  ②衡量其重要性和丰富性;

  ③分析超链接;

  ④分词;

  ⑤删除重复的网页。

  在数据索引中,最复杂的结构就是建立一个索引库,索引分为文档索引和关键词索引。每个网页的唯一docID编号由文档索引分配,根据docID编号可以从网页中检索每个wordID的次数、位置、大小和格式。最后形成wordID的数据列表。

  倒排索引是最简单、实用的倒排索引,需要记录更多的信息。在词对应的倒排列表中,除了记录文档编号外,还会记录词频信息,方便日后计算查询与文档的相似度。

  倒排索引的形成过程如下:

  ① 搜索引擎使用分词系统自动将文档划分为词序列;

  ② 给每个词分配一个唯一的词号;

  ③记录含有该词的文件。

  3.咨询服务

  当我们在搜索引擎中输入一个关键词并点击“搜索”按钮时,搜索引擎程序会开始对搜索词进行分段,然后根据情况判断是否需要启动整合搜索,然后找出错别字和拼写错误,并删除停用词。

  然后,搜索引擎程序会从索引库中找到收录目标关键词的相关网页,最后根据格式返回搜索结果页面。

  搜索结果的排名是查询服务的核心,它决定了搜索引擎的质量和用户的满意度。其实,影响搜索结果排名的因素有很多,但最重要的是网页内容的相关性。影响相关性的主要因素包括以下五个方面:

  ①关键词 常用

  在分词后的多个关键词中,使用频率较低的词对搜索词的意义贡献更大。相反,常用词的贡献很小。当达到一定限度时,就是一个停用词,对页面没有任何影响。

  ②词频与密度

  一般情况下,搜索词的密度与其在页面上出现的次数呈正相关。次数越多,密度越大,页面与搜索词的关系越密切。

  ③关键词位置和形式

  页面关键词出现的格式和位置记录在索引库中,当关键词出现在标题标签、黑体、H1等中时,表示该页面与<高度相关@关键词。

  ④关键词距离

  关键词拆分成多个关键词后,如果能连续完整的出现在页面上,或者关键词之间的距离比较近,说明与搜索词相关高的。

  ⑤ 链接分析和页面权重

  页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。在页面上将搜索词作为锚文本的导入链接越多,页面的相关性就越高。链接分析的范围还包括链接源页面本身的主题、锚文本周围的文本等。

  以上是“搜索引擎是如何工作的?” “全部内容,感谢您的阅读,希望对您有所帮助!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线