搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析:1.蜘蛛)
优采云 发布时间: 2021-10-04 23:11搜索引擎如何抓取网页(搜索引擎的工作过程的进一步分析:1.蜘蛛)
搜索引擎的工作过程大致可以分为三个阶段:
1. 搜索引擎蜘蛛通过以下链接在互联网上爬取网页信息,并将其存储在原创网页数据库中;
其次,索引程序从原创网页数据库中的信息中提取文本和中文分词,建立索引数据库供排名程序随时调用;
第三,排名程序根据用户输入的关键词快速检索索引库数据,计算相关性,然后进行排序,生成一定格式的搜索结果页面返回给用户。
图片来自网络
以下是七点传媒的进一步分析:
1.网页抓取
每次搜索引擎蜘蛛遇到新文档时,它都会搜索其页面的链接网页。蜘蛛访问网页的过程,其实与普通用户使用浏览器访问网页的过程类似。首先,向页面发出访问请求。服务器接受访问请求并返回HTML代码后,将获取的HTML代码存储在原创页面数据库中。
为了提高效率,搜索引擎会使用多个蜘蛛来分布抓取。而且,搜索引擎服务器遍布全球,每个服务器会同时发送多个蜘蛛抓取网页。如果这些搜索引擎蜘蛛重复访问同一个页面,显然会降低工作效率。那么,当蜘蛛访问一个页面时,它如何让一个页面只访问一次呢?只做信息共享。
在抓取网页时,搜索引擎会创建两张不同的表,一张表记录已访问过的网站,另一张表记录未访问过的网站。蜘蛛抓取外链页面的URL时,需要下载网站的URL并进行分析。蜘蛛分析完所有的 URL 后,会将 URL 存储在相应的表中。
如果此时另一个蜘蛛从其他网站 或其他页面中找到了这个URL,它会将其与访问列表进行比较。如果已经被访问过,蜘蛛会自动丢弃 URL 不再访问。
2.创建索引
面对海量的原创网页数据库,搜索引擎必须对蜘蛛抓取的原创网页进行预处理,以便用户快速方便地找到搜索结果。
网页预处理的主要过程是为网页建立全文索引,然后开始对网页进行分析,最后建立倒排文件(也称为倒排索引)。经过搜索引擎的分析处理后,网页不再是原来的网页,而是一个以词为单位,能够反映网页主题内容的文档。
网页分析流程如下:
①通常需要先判断网页的类型;
②衡量其重要性和丰富性;
③分析超链接;
④分词;
⑤删除重复的网页。
在数据索引中,最复杂的结构就是建立一个索引库,索引分为文档索引和关键词索引。每个网页的唯一docID编号由文档索引分配,根据docID编号可以从网页中检索每个wordID的次数、位置、大小和格式。最后形成wordID的数据列表。
倒排索引是最简单、实用的倒排索引,需要记录更多的信息。在词对应的倒排列表中,除了记录文档编号外,还会记录词频信息,方便日后计算查询与文档的相似度。
倒排索引的形成过程如下:
① 搜索引擎使用分词系统自动将文档划分为词序列;
② 给每个词分配一个唯一的词号;
③记录含有该词的文件。
3.咨询服务
当我们在搜索引擎中输入一个关键词并点击“搜索”按钮时,搜索引擎程序会开始对搜索词进行分段,然后根据情况判断是否需要启动整合搜索,然后找出错别字和拼写错误,并删除停用词。
然后,搜索引擎程序会从索引库中找到收录目标关键词的相关网页,最后根据格式返回搜索结果页面。
搜索结果的排名是查询服务的核心,它决定了搜索引擎的质量和用户的满意度。其实,影响搜索结果排名的因素有很多,但最重要的是网页内容的相关性。影响相关性的主要因素包括以下五个方面:
①关键词 常用
在分词后的多个关键词中,使用频率较低的词对搜索词的意义贡献更大。相反,常用词的贡献很小。当达到一定限度时,就是一个停用词,对页面没有任何影响。
②词频与密度
一般情况下,搜索词的密度与其在页面上出现的次数呈正相关。次数越多,密度越大,页面与搜索词的关系越密切。
③关键词位置和形式
页面关键词出现的格式和位置记录在索引库中,当关键词出现在标题标签、黑体、H1等中时,表示该页面与<高度相关@关键词。
④关键词距离
关键词拆分成多个关键词后,如果能连续完整的出现在页面上,或者关键词之间的距离比较近,说明与搜索词相关高的。
⑤ 链接分析和页面权重
页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。在页面上将搜索词作为锚文本的导入链接越多,页面的相关性就越高。链接分析的范围还包括链接源页面本身的主题、锚文本周围的文本等。
以上是“搜索引擎是如何工作的?” “全部内容,感谢您的阅读,希望对您有所帮助!