搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理

优采云 发布时间: 2021-08-12 01:18

  搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理

  搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。搜索引擎数据库中的页面数在万亿以上。用户输入搜索词后,排名程序会实时分析这么多页面的相关性,计算量太大,一两秒内返回排名结果。因此,必须对抓取的页面进行预处理,为最终的查询排名做准备。

  和爬虫类似,都是在后台提前做预处理,用户在搜索的时候不会感觉到这个过程。

  1.提取文本

  当前的搜索引擎仍然基于文本内容。蜘蛛抓取的页面中的HTML代码除了用户在浏览器上可以看到的可见文本外,还收录了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是去除HTML文件中的标签和程序,提取网页的文本内容,用于排名处理。

  除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如Meta标签中的文本、图片的替代文本、Flash文件的替代文本、链接锚文本等。

  2.中文分词

  分词对于中文搜索引擎来说是一个独特的步骤。搜索引擎存储和处理页面,用户搜索基于单词。英语等语言中词与词之间存在空格,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎必须首先区分哪些字符构成一个词,哪些字符本身就是词。例如,“减肥方法”会被分割为“减肥”和“方法”两个词。

  中文分词方法基本上有两种,一种是基于词典匹配,一种是基于统计。

  基于词典匹配的方法是指将一段待分析的汉字与预先构建的词典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功。或者删掉一句话。根据扫描方向,基于字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。首先混合扫描方向和长度,可以生成前向最大匹配和反向最大匹配等不同的方法。字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。

  基于统计的分词方法是指对大量文本样本进行分析,计算相邻单词出现的统计概率。相邻的单词越多,形成单词的可能性就越大。基于统计的方法的优点是对新词反应更快,也有助于消除歧义。基于词典匹配和统计的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法,速度快,效率高,可以识别新词和新词,消除歧义。

  中文分词的准确率往往会影响搜索引擎排名的相关性。比如在百度上搜索“搜索引擎优化”,从快照中可以看出百度将“搜索引擎优化”这六个词视为一个词。

  在谷歌上搜索同一个词时,快照显示谷歌将其分为两个词:“搜索引擎”和“优化”。显然,百度的细分更合理,搜索引擎优化是一个完整的概念。在分词方面,Google 往往更加分散。

  这种分词的不同,可能也是一些关键词排名在不同搜索引擎中表现不同的原因之一。例如,百度更喜欢完全匹配页面上的搜索词。也就是说,在搜索“Footplay Blog”时,这四个词连续、完整地出现,更容易在百度上获得好的排名。谷歌与此不同,不需要完全匹配。在某些页面上,会出现“国鲜”和“博客”这两个词,但它们不一定完全匹配。 “国贤”出现在最前面,“博客”出现在页面的其他地方。在谷歌中搜索“国贤博客”这样的页面。 ”,你也可以获得不错的排名。

  搜索引擎对页面的分词取决于分词算法的规模、准确度和质量,而不是页面本身,因此SEO人员可以做的分词很少。唯一能做的就是在页面上以某种形式提示搜索引擎,某些词应该作为一个词来处理,尤其是可能有歧义的时候,比如页面标题中出现关键词,h1标记和粗体。如果页面是关于“和服”的内容,那么“和服”两个字可以专门用粗体标出。如果页面是关于“化妆和服装”的,你可以用粗体标记“服装”这个词。这样搜索引擎在分析页面的时候,就知道加粗的那个词应该是一个词。

  3.停止这个词

  无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,如“的”、“地”、“得”等辅助词、“啊”、“ha”、“yah”等感叹词、“thereby”、“yi”、“que”等副词或介词。这些词被称为停用词,因为它们对页面的主要含义没有影响。英文中常见的停用词有the、a、an、to、of等,搜索引擎会在索引页面前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算。

  4.消除噪音

  大多数页面上还有一部分内容对页面主题贡献不大,比如版权声明文字、导航栏、广告等,以常见的博客导航为例。几乎每个博客页面都会出现文章categorization、历史存档等导航内容,但这些页面本身与“类别”和“历史”这两个词无关。当用户搜索“历史”和“类别”关键词时,仅仅因为这些词出现在页面上而返回博客帖子是毫无意义和完全无关的。所以这些块都是噪音,只能起到分散页面话题的作用。

  搜索引擎需要识别并消除这些噪音,在排名时不要使用噪音内容。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、正文、页脚和广告等区域。在网站 上反复出现的块通常是噪音。页面去噪后,剩下的就是页面的主要内容了。

  5.去重

  搜索引擎也需要去重页面。

  同一篇文章文章经常在不同的网站和同一个网站上重复。搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到同一篇文章文章来自不同的网站,用户体验太差了,虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章,因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。

  去重的基本方法是计算页面特征关键词的指纹,即从页面的主要内容中选出最具代表性的部分关键词(通常是出现频率最高的关键词),然后计算这些关键词数字指纹。这里的关键词 选择是在分词、去除停用词和降噪之后。实验表明,通常选择10个特征关键词可以达到较高的计算精度,选择更多的词对去重精度的提高贡献不大。

  典型的指纹计算方法,如MD5算法(信息摘要算法第五版)。这种指纹算法的特点是输入(特征关键词)的任何微小变化都会导致计算指纹出现很大差距。

  了解搜索引擎的去重算法,SEO人员应该知道,简单的加“的”、“地”、“得”,改变段落顺序,也就是所谓的伪原创,逃不过搜索引擎。重算法,因为这样的操作无法改变文章关键词的特性。而且,搜索引擎的去重算法很可能不仅在页面级别,而且在段落级别。混用不同的文章,交叉切换段落顺序,不会让转载抄袭变成原创。

  6.forward 索引

  前向索引也可以简称为索引。

  经过文本提取、分词、去噪和去重后,搜索引擎将获得反映页面主要内容的、基于词的独特内容。接下来,搜索引擎索引程序可以提取关键词,根据分词程序,将页面转换成一组关键词,并记录每个关键词在上的出现频率、出现次数、出现次数这一页。格式(如出现在标题标签、粗体、H 标签、锚文本等)、位置(如页面第一段等)。这样每个页面就可以记录为一系列关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。

  搜索引擎索引程序将词汇结构中的页面和关键词存储到索引数据库中。

  每个文件对应一个文件ID,文件内容以关键词的集合表示。事实上,在搜索引擎索引库中,关键词也被转换成了关键词ID。这种数据结构称为前向索引。

  7.倒排索引

  前向索引不能直接用于排名。假设用户搜索关键词2。如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词2的文件,然后进行相关计算。这个计算量不能满足实时返回排名结果的要求。

  因此搜索引擎会将正向索引数据库重构为倒排索引,并将文件到关键词的映射转换为关键词到文件的映射。

  关键词 是倒排索引中的主键。每个关键词对应一系列文件,而这个关键词出现在这些文件中。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位这个关键词,就可以立即找到收录这个关键词的所有文件。

  8.Link 关系计算

  链接关系的计算也是预处理的一个重要部分。所有主流搜索引擎排名因素现在都包括网页之间的链接流信息。搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

  Google PR 值是这种链接关系最重要的体现之一。其他搜索引擎也进行类似的计算,尽管它们不称为 PR。

  由于页面和链接数量庞大,互联网上的链接关系不断更新,因此链接关系和PR的计算需要很长时间。 PR和链接分析有专门的章节。

  9.特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们也经常在搜索结果。但是,目前的搜索引擎无法处理图像、视频、Flash 等非文本内容,也无法执行脚本和程序。

  尽管搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展,但距离通过读取图片、视频和 Flash 内容直接返回结果的目标还很远。图片和视频内容的排名往往以与其相关的文字内容为依据。详情请参考下方综合搜索部分。

  10.ranking

  搜索引擎程序通过搜索引擎蜘蛛抓取的界面计算出倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引库数据,计算排名并展示给客户。排名过程直接与客户互动。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线