seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

优采云发布时间: 2021-09-25 04:11

　　只有让我们的网站靠近以上4条信息，才会被数据库中的蜘蛛和收录发现。那么，当我们的网站信息是百度收录时，下一步可以分为以下几个步骤：

　　1、预处理。在一些SEO材料中，“预处理”也被称为“索引”，因为索引是预处理中最重要的一步。我们知道百度数据库中的收录并不是现成的页面，而是“HTML”标签的源代码。搜索引擎的预处理工作内容首先去除HTML代码，剩下的用于排名的文字只有一行。.

　　除了可见文本，搜索引擎还会提取一些收录文本信息的特殊代码，例如：META标签中的文本、图片中的替代文本、Flash文件中的替代文本、链接锚文本等。

　　2、中文分词（这是中文搜索引擎独有的，谁让我们的文化博大精深，没办法，是任性！）。中文分词基本上有两种方法： 1、基于字典的匹配——将一段待分析的汉字与预先建好的字典中的一个词条进行匹配，将待分析的汉字串扫描到字典某些条目匹配成功，或剪掉一个词。2、基于统计——是指分析大量文本样本，计算相邻单词出现的统计概率。相邻的单词越多，形成单词的可能性就越大。

　　3、转到停止词。停用词——无论是英文还是中文，页面内容中出现频率高但对内容没有影响的词，如“的”、“地”、“得”等辅助词、“啊” ,” “ha”和“yah”等感叹词，“thereby”、“yi”、“que”等副词或介词都称为停用词。因为这些停用词对页面的主要含义没有影响，搜索引擎会在索引页面前去除停用词，使索引数据主题更加突出，减少不必要的计算量。

　　4、消除噪音。所谓噪音是指除了停用词之外对页面主题没有任何贡献的因素，例如博客页面的“文章类别”和“历史档案”。

　　消除噪音的基本方法：根据HTML标签将页面划分成块，区分页面的页眉、导航、正文、页脚和非高区。网站上的大量重复块属于噪声。页面去噪后，剩下的是页面主题内容。

　　5、删除重复。搜索引擎还需要在索引之前识别和删除重复的内容。此过程称为“重复数据删除”。意义在于提升用户体验（搜索引擎不喜欢重复的内容）。

　　去重方法：“去重”的基本方法是对页面特征关键词计算指纹，即选择页面主题内容中最具代表性的部分关键词（往往是最频繁关键词)，然后计算这些关键词数字指纹。

　　6、正向索引。前向索引也可以简称为索引。搜索引擎索引程序将词汇结构中的页面和关键词存储到索引库中。而关键词的内容是通过文件ID映射的，一一对应。

　　7、倒排索引。前向索引不能用于排序，倒排索引最终用于排序。因此，搜索引擎会将正向索引数据库重构为倒排索引，将关键词对应的文件映射转换为关键词文件的映射。

　　8、链接关系计算。链接关系计算也是预处理的重要部分。搜索引擎抓取页面内容后，必须提前计算：页面上的哪些链接指向其他哪些页面，每个页面导入的链接是什么，链接使用的是什么锚文本？这些复杂的链接指向关系构成了网站和页面的链接权重。

　　9、特殊文件处理。

　　除了抓取HTML文件外，搜索引擎通常可以抓取并索引多种基于文本的文件类型，例如：PDF、WORDS、WPS、PPT、TXT等文件。目前，搜索引擎无法处理图片、视频、Flash 等非文本内容，也无法执行脚本和程序。

　　小编自己的看法：（此时可以利用它的特点，大家都知道网站的相关性直接影响到网站的排名，而我们的网站一定是穿插了其他不相关的信息，比如*敏*感*词*等，我们可以把这些放到图片或者视频里放到我们的网站上，这样百度预处理程序就不识别图片或者视频了，我们的相关性会更高比起其他网站，百度当然会先向用户推荐我们！）

　　做完以上的事情，最后的工作就是排名了。在这里写不下去了，希望大家关注我下一篇文章文章。我将详细解释搜索引擎如何对我们的网站进行排名。如有任何问题也欢迎与我交流！

0

2021-09-25

seo优化搜索引擎工作原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

0 个评论

发起人

AI时代内容工厂

seo优化搜索引擎工作原理(网站信息被百度收录后接下来就可以分为以下几个步骤)

0 个评论

发起人

相关问题