搜索引擎如何抓取网页(搜索引擎网页收集的过程及搜索引擎抓取网页时的工具及方式)
优采云 发布时间: 2021-12-28 04:06搜索引擎如何抓取网页(搜索引擎网页收集的过程及搜索引擎抓取网页时的工具及方式)
上一篇讲了搜索引擎网页
" target="_blank">采集
首先要明白,搜索引擎检索到的原创
页面不能直接参与排名,需要进行处理。我们称这个过程为预处理。
预处理是由搜索引擎在后台预先完成的,所以用户在搜索时不会感觉到。我们在优化网站的时候,很多方面都会影响到预处理的过程。因此,我们需要对预处理有深入的了解。.
搜索引擎预处理
一、提取文本
以中文搜索引擎为例,搜索引擎分析网页文件的HTML代码中的各种元素,去除标签、程序等元素,提取出可用于网页排名的文本内容。因此,在优化网站时,请注意网页尽量以文字为主,不要以图片代替文字,以免蜘蛛无法识别。
二、中文分词
中文分词是一种搜索引擎,从抓取到的页面中提取文本,然后对文本进行拆分和重组。中文分词是中文搜索引擎独有的一步。中文分词有两种类型:基于字典的匹配和基于统计的。
1、基于字典的匹配方法是指将一段待分析的汉字与预先构建的字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功。或者删掉一句话。如果按照扫描方向,基于字典的匹配方法可以分为正向匹配和反向匹配。根据匹配长度的优先级,可分为***匹配和最小匹配。首先混合扫描方向和长度,可以产生正向***匹配和反向***匹配等不同的方法。字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。
2、 基于统计的分词方法是指对大量文本字符进行分析,计算相邻字符的统计频率。相邻的几个字符越多,组成单词的可能性就越大。基于统计的方法的优点是对新出现的词反应更快,也有利于消除歧义。
基于词典匹配和统计的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法,快速高效,可以识别新词和新词,消除歧义。
在英语等语言中,单词之间有一个空格作为自然分隔,搜索引擎索引程序可以直接将句子分成单词组合。在中文中,单词之间没有分隔符。一个句子中的所有单词和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。
中文分词时,***要把从网页中提取的文字按照词组进行划分,例如“iPhone case多少钱”可以分为“苹果手机”、“苹果手机壳”、“多少”“苹果手机壳多少”。分词时会过滤掉非语义词,如:de, de, ah, oh, ah, not only, but also.
这里需要提醒大家的是,在做网站优化的时候,我们需要在网页的适当位置出现关键词,比如在标题中,在标签中,这样搜索引擎在优化的时候会更准确我们将单词分段。< @关键词提取它。
三、删除重复页面
页面去重是页面分词之后的下一步。对分词后的页面进行比较,去除重复页面。
如果搜索引擎中出现大量相同的内容,就会影响用户的搜索体验。为了避免这种情况,搜索引擎会对页面进行去重。很多人喜欢在文章中插入非语义词进行优化,比如:get、land、或者swap段落。这些
" target="_blank">伪原创
四、计算页面的重要性
页面的重要性,也称为“权重”。页面权重主要由两个方面决定:网站内容的质量和链接数(链接链接数)。因此,外链优化也是SEO的重要组成部分。SEOer需要兼顾内容质量和入链。
五、创建索引
1、前排索引
前端索引也可以简称为索引。经过前面的步骤,搜索引擎得到了一个唯一能反映页面主要内容的词串。接下来搜索引擎可以提取关键词,根据分词程序对关键词进行划分,将页面转换成关键词的集合,记录页面上的每一个关键词出现频率、出现次数、格式(如标题标签、粗体、H标签、锚文本等)、位置等信息。这样就可以将每一页记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。搜索引擎索引程序将词汇结构中的页面和关键词存储到索引库中。
每个文件(即处理后的页面)对应一个文件ID,文件内容用关键词集合的字符串表示。事实上,在搜索引擎索引库中,关键词也被转换成了关键词 ID。这种数据结构称为前向索引。
2、倒排索引
正指数不能直接用于排名。假设用户搜索关键词2(见上图)。如果只有一个正索引,排序程序需要扫描所有索引库文件,找到收录
关键词2的文件,然后进行相关计算。这个计算量不能满足实时返回排名结果的要求。
因此,搜索引擎会将正向索引数据库重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射,如下图所示:
在倒排索引中,关键词为主键,每个关键词对应一系列文件。这个关键词出现在这些文件中,所以当用户搜索某个关键词时,排序程序在倒排索引中定位这个关键词,它可以立即找到所有收录
这个<的文件@关键词。
六、分析链接
链接关系计算是预处理中非常重要的一步。主流搜索引擎排名因素都包括网页之间的链接流信息。需要计算页面上的哪些链接指向其他哪些页面,每个页面上有哪些导入链接,链接的锚文本是什么。这些复杂的链接指向关系形成了网站和页面的链接权重。
以上六步就是搜索引擎预处理的全过程。