搜索引擎优化(seo)的基本工作模块(HTML代码后,剩下的用于排名的文字只是这一行)

优采云 发布时间: 2021-12-02 07:04

  搜索引擎优化(seo)的基本工作模块(HTML代码后,剩下的用于排名的文字只是这一行)

  去掉HTML代码后,剩下的用于排名的文字就只有这一行:

  今天愚人节

  除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如Meta标签中的文本、图片的替代文本、Flash文件的替代文本、链接锚文本等。

  2.中文分词

  分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面,用户搜索基于单词。英语等语言中词与词之间存在空格,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎首先要区分哪些字符构成一个词,哪些词本身就是一个词。例如,“减肥方法”将分为“减肥”和“方法”两个词。

  中文分词方法基本上有两种,一种是基于词典匹配,一种是基于统计。

  基于字典匹配的方法是指将一段待分析的汉字与预先建立的字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功,或者截断一个词。

  根据扫描方向,基于字典的匹配方法可分为正向匹配和反向匹配。根据匹配长度的优先级,可分为最大匹配和最小匹配。首先混合扫描方向和长度,可以生成前向最大匹配和反向最大匹配等不同的方法。

  字典匹配法计算简单,其准确性在很大程度上取决于字典的完整性和更新性。

  基于统计的分词方法是指对大量文本样本进行分析,计算相邻单词出现的统计概率。相邻出现的单词越多,形成单词的可能性就越大。基于统计的方法的优点是对新出现的词反应更快,也有利于消除歧义。

  基于词典匹配和统计的分词方法各有优缺点。实际使用中的分词系统混合使用了两种方法,快速高效,可以识别新词和新词,消除歧义。

  中文分词的准确性往往会影响搜索引擎排名的相关性。例如在百度上搜索“搜索引擎优化”,如图2-22所示。从快照中可以看出,百度将“搜索引擎优化”这六个词视为一个词。

  

  图2-22 百度快照中“搜索引擎优化”的分词结果

  在谷歌中搜索同一个词时,如图2-23所示,快照显示谷歌将其分为三个词:“搜索”、“引擎”和“优化”。显然,百度的细分更合理,搜索引擎优化是一个完整的概念。在分词方面,谷歌往往更加分散。

  

  图2-23 Google Snapshot中“搜索引擎优化”的分词结果

  再举一个更明显的例子。在谷歌中搜索“点石互动”四个词,如图2-24,截图显示谷歌将其分为“点”、“石”、“互动”三个词。中国SEO领域最知名的品牌“点石互动”,显然还没有进入谷歌的词典。

  

  图2-24 Google快照中“点石互动”的分词结果

  在百度上搜索“点石互动”,你会发现百度把“点石互动”当成一个词。即使在百度上搜索“点石会议注册”,也可以发现百度将“点石会议”视为一个词,如图2-25所示。

  

  图2-25 百度快照中“点石会议注册”的分词结果

  这种分词的差异,可能也是一些关键词排名在不同搜索引擎中表现不同的原因之一。例如,百度更喜欢完全匹配页面上的搜索词。也就是说,在搜索“点石互动”时,这四个连续、完整出现的词更容易在百度上获得好的排名。Google 则不同,不需要完全匹配。“点石”和“互动”这两个词出现在一些页面上,但不一定完全匹配。“点石”出现在最前面,“互动”出现在页面的其他地方。在谷歌中搜索“点石互动”即可找到此类页面。”,也可以获得不错的排名。

  搜索引擎对页面的分词取决于分词算法的规模、准确度和质量,而不是页面本身,所以SEO人员很少能做分词。唯一能做的就是使用某种形式在页面上提示搜索引擎。某些词应视为一个词,尤其是在可能存在歧义的情况下,例如页面标题、h1 标签和粗体关键词。如果页面是关于“和服”的内容,那么“和服”两个字可以专门用粗体标出。如果页面是关于“化妆和服装”的,你可以用粗体标记“服装”这个词。这样搜索引擎在分析页面的时候,就知道加粗的那个词应该是一个词。

  3.去停止词

  无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,如“的”、“地”、“得”等辅助词“啊”、 “哈” 感叹词如“雅”,副词或介词如“因此”、“以”和“缺”。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英语中常见的停用词包括 the、a、an、to、of 等。

  搜索引擎会在索引页面前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算。

  4. 消除噪音

  大多数页面上还有一部分内容对页面主题贡献不大,比如版权声明文字、导航栏、广告等,以常见的博客导航为例。文章 分类和历史存档等导航内容几乎出现在每个博客页面上,但这些页面本身与“分类”和“历史”这两个词无关。当用户搜索“历史”和“类别”关键词时,仅仅因为这些词出现在页面上而返回博客帖子是毫无意义和完全无关的。因此,这些块都是噪音,只能在页面的主题中起到分散作用。

  搜索引擎需要识别并消除这些噪音,排名时不使用噪音内容。去噪的基本方法是根据HTML标签将页面分成块,以区分页眉、导航、正文、页脚、广告等区域。网站 上的大量重复块往往是噪音。页面去噪后,剩下的就是页面的主要内容了。

  5. 重复数据删除

  搜索引擎还需要对页面进行重复数据删除。

  相同的文章经常重复出现在不同的网站上,相同的网站出现在不同的网址上。搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到同一篇文章文章来自不同的网站,用户体验太差了,虽然都是内容相关的。搜索引擎希望在同一个文章中只返回一篇文章,因此需要在索引前识别并删除重复的内容。此过程称为“重复数据删除”。

  去重的基本方法是为页面特征关键词计算指纹,即从页面的主要内容中选出最具代表性的部分关键词(往往是出现频率最高的关键词 ) ,然后计算这些关键词数字指纹。这里关键词的选择是经过分词、去停用词、降噪后的。实验表明,通常选择10个特征关键词可以达到较高的计算精度,选择更多的词对去重精度的提高贡献不大。

  典型的指纹计算方法是MD5算法(信息摘要算法第五版)。这类指纹算法的特点是输入(特征关键词)的任何微小变化都会导致计算出的指纹出现很大的差距。

  了解搜索引擎的去重算法,SEO人员应该知道,简单的加“的”、“地”、“得”,改变段落的顺序,也就是所谓的伪原创,逃不过搜索的去重引擎。算法,因为这样的操作无法改变文章关键词的特性。而且,搜索引擎的去重算法很可能不仅仅在页面层面,而是在段落层面。混用不同的文章,交叉改变段落顺序,不会让转载抄袭成为原创。

  6. 远期指数

  前向索引也可以简称为索引。

  经过文本提取、分词、去噪、去重后,搜索引擎得到反映页面主要内容的、基于词的独特内容。接下来,搜索引擎索引程序可以提取关键词,根据分词程序,将页面转换成关键词的集合,并记录每个关键词在页面上的频率、数量出现次数、格式(如标题标签、粗体、H 标签、锚文本等)、位置(如页面的第一段等)。这样就可以将每一页记录为一串关键词集合,其中还记录了每个关键词的词频、格式、位置等权重信息。

  搜索引擎索引程序将词汇结构中的页面和关键词存储到索引数据库中。索引词汇的简化形式如表2-1所示。

  表2-1 简化索引词汇结构

  

  每个文件对应一个文件ID,文件的内容表示为一组关键词。事实上,在搜索引擎索引库中,关键词也被转换为关键词 ID。这种数据结构称为前向索引。

  7.倒排索引

  前向索引不能直接用于排名。假设用户搜索关键词2。如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词2的文件,然后进行相关计算。这个计算量不能满足实时返回排名结果的要求。

  因此,搜索引擎会将正向索引数据库重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射,如表2-2所示。

  在倒排索引中,关键词为主键,每个关键词对应一系列文件,而这个关键词出现在这些文件中。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,可以立即找到所有收录这个关键词的文件。

  表2-2 倒排索引结构

  

  8. 链接关系计算

  链接关系计算也是预处理中非常重要的一部分。现在所有主流搜索引擎排名因素都包括网页之间的链接流信息。搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

  谷歌PR值是这种链接关系最重要的体现之一。其他搜索引擎也执行类似的计算,尽管它们不称为 PR。

  由于页面和链接数量庞大,互联网上的链接关系不断更新,因此链接关系和PR的计算需要很长时间。PR和链接分析有专门的章节。

  9. 特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等,我们经常在搜索结果中看到这些文件类型。但是,当前的搜索引擎无法处理图像、视频和Flash 等非文本内容,也无法执行脚本和程序。

  尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但离通过阅读图片、视频和Flash内容直接返回结果的目标还很远。图片和视频内容的排名往往是基于相关的文字内容。有关详细信息,请参阅下面的集成搜索部分。

  2.4.3 排名

  搜索引擎蜘蛛抓取页面,索引程序计算出倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引库数据,计算排名并展示给用户。排名过程与用户直接交互。

  1.搜索词处理

  搜索引擎收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括以下几个方面。

  (1)中文分词。和页面索引一样,搜索词也必须是中文分词,查询字符串必须转换成基于词的关键词组合。分词的原理是与页面分词相同。

  (2)转到停用词。与索引一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名相关性和效率。

  (3)指令处理。查询词切分后,搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。也就是说,当用户搜索“权重loss method”,程序切分是“weight loss”和“method”这两个词是搜索引擎排序的,默认情况下,用户正在寻找同时收录“weight loss”和“methods”的页面。只有“weight loss”不收录“方法”,或者只收录“方法”页面,不收录“减肥”的页面都被认为是不符合搜索条件的。当然,这只是为了说明原理而非常简单的表述。其实,我们仍然会看到只收录 关键词 结果的一部分的搜索。

  此外,用户输入的查询词还可能收录一些高级搜索指令,如加号、减号等,搜索引擎需要进行相应的识别和处理。对于高级搜索命令,后面会有详细说明。

  (4)拼写错误纠正。如果用户输入明显错误的单词或拼错英文单词,搜索引擎会提示用户使用正确的单词或拼写,如图2-26

  

  .

  图 2-26 输入错误拼写和拼写错误更正

  (5)集成搜索触发。某些搜索词会触发集成搜索。比如名人名字经常触发图片和视频内容。当前的热门话题很容易触发信息内容。哪个词触发哪个集成搜索也需要搜索文字处理阶段计算。

  2.文件匹配

  搜索词处理后,搜索引擎得到一个基于词的关键词集合。文件匹配阶段是查找收录所有关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配,如表2-3所示。

  表2-3 快速匹配倒排索引文件

  

  假设用户搜索“关键词2 关键词7”,排名程序只需要在倒排索引中找到“关键词2”和“关键词7”这两个词,然后可以找到收录这两个词的所有页面。经过简单的计算,我们可以找到同时收录“关键词2”和“关键词7”的所有页面:文件1和文件6。

  3. 初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关计算,因为经常会找到几十万、几百万甚至几千万的文件。实时对这么多文件进行相关计算需要很长时间。

  事实上,用户不需要知道所有数十万或数百万的匹配页面。大多数用户只会查看前两页,即前 20 个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面最重要的部分。使用搜索引擎的人会注意到,搜索结果页通常最多显示100页。当用户点击搜索结果页底部的“下一页”链接时,最多只能看到第100页,也就是1000条搜索结果,如图2-27所示。

  百度通常返回76页的结果,如图2-28所示。

  

  图2-27 Google显示100页搜索结果

  

  图2-28 百度显示76页搜索结果

  所以搜索引擎只需要计算前1000条结果的相关度即可满足要求。

  但问题是,搜索引擎如何在计算相关性之前知道哪一千个文件最相关?因此,用于最终相关性计算的初始页面子集的选择必须依赖于其他特征而不是相关性,其中最重要的是页面权重。由于所有匹配的文件已经具有最基本的相关性(这些文件收录所有查询关键词),搜索引擎通常使用不相关的页面特征来选择初始子集。初始子集的数量是多少?成千上万?也许更多,外人不知道。但可以肯定的是,当匹配页面数量巨大时,搜索引擎不会计算这么多页面,而是必须选择一个页面权重较高的子集,然后计算该子集中页面的相关性。

  4. 相关计算

  选择初始子集后,为子集中的页面计算关键词相关性。计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中SEO最有趣的部分。

  影响相关性的主要因素包括以下几个方面。

  (1)关键词常用程度。分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词,对搜索词的贡献越小搜索词的含义 , 不常用的词对搜索词的含义有贡献. 例如,假设用户输入的搜索词是“we Pluto”。出现在很多页面上。搜索词“us Pluto”对识别度和意义相关性贡献不大。找出那些收录“us”一词的页面对搜索排名相关性影响不大。收录“us”一词的页面太多我们”。字。

  “冥王星”一词使用频率较低,但它对搜索词“我们的冥王星”的含义贡献更大。收录“冥王星”一词的页面将与搜索词“我们的冥王星”更相关。

  常用词的极端是停用词,对页面的意思没有影响。

  因此,搜索引擎不会对搜索字符串中的关键词 一视同仁,而是根据常用程度对其进行加权。生僻词权重系数高,常用词权重系数低。排名算法更关注生僻词。

  我们假设“we”和“Pluto”这两个词出现在A页和B页上。但是“we”这个词出现在A页的普通文本中,而“Pluto”这个词出现在A页的标题标签中。 B页,相反,“我们”出现在标题标签中,而“冥王星”出现在普通文本中。然后对于搜索词“我们冥王星”,页面 A 将更相关。

  (2)词频和密度。一般认为,在没有关键词积累的情况下,搜索词在页面上出现的频率更高。密度越高,页面和搜索的相关性越高当然,这只是一个粗略的讲,实际情况可能并非如此,所以在相关计算中还有其他因素,频率和密度只是部分因素,重要程度越来越低和更低。

  (3)关键词位置和格式。如索引部分所述,页面关键词出现的格式和位置记录在索引库中。关键词出现在更多重要的位置,比如title tag、粗体、H1等,表示页面与关键词的相关性更高,这部分就是页面SEO要解决的。

  (4)关键词 距离。分段后的关键词出现在一个完全匹配中,表明它与搜索词最相关。例如,在搜索“减肥方法”时,整个页面“减肥方法”连续完整出现这四个词最相关,如果“减肥”和“方法”这两个词不连续匹配,它们看起来更近,被搜索引擎认为稍微相关.

  (5)链接分析和页面权重。除了页面本身的因素外,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。 more pages there 搜索词是带有锚文本的导入链接,表示该页面更相关。

  链接分析还包括链接源页面本身的主题、锚文本周围的文本等。

  本书更详细地解释了上面简要介绍的几个因素。

  5.排名过滤和调整

  选择匹配文件的子集并计算相关性后,就确定了总体排名。之后,搜索引擎也可能有一些过滤算法来稍微调整排名,其中最重要的是施加惩罚。一些疑似作弊的页面根据正常的权重和相关性计算排在第一位,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位算法、谷歌的负6、负30、负950等算法。

  6.排名显示

  所有排名确定后,排名程序调用原页面的标题标签、描述标签和快照日期显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。

  7. 搜索缓存

  用户搜索到的关键词有很大一部分是重复的。根据 2/8 规则,20% 的搜索词占总搜索次数的 80%。根据长尾理论,最常见的搜索词占不到80%,但它们通常都有一个比较大的头部。极少数搜索词占所有搜索的很大一部分。特别是当热点新闻发生时,每天可能有数百万人搜索完全相同的关键词。

  可以说每次搜索都要重新处理排名,是一种极大的浪费。搜索引擎会将最常用的搜索词存储在缓存中,用户搜索时直接从缓存中调用,无需经过文件匹配和关联计算,大大提高了排名效率,缩短了搜索响应时间.

  8.查询和点击日志

  搜索引擎记录搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。

  上面我们简单介绍了搜索引擎的工作过程。当然,搜索引擎的实际工作步骤和算法是非常复杂的。上面的描述很简单,但是有很多技术难点。

  搜索引擎仍在优化算法和优化数据库格式。不同的搜索引擎的工作步骤也会有所不同。但基本上所有主流搜索引擎的基本工作原理都是一样的,过去几年和未来几年都不会出现可以预期的实质性变化。

  备注:《SEO实用密码》新闻官网站:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线