从事SEO（搜索引擎优化）工作的人可以比喻成贴身管家

优采云发布时间: 2021-05-18 20:32

　　原创来源：蜘蛛池博客

　　原创链接：百度搜索引擎的工作方式，看一下徐先生的建议-蜘蛛池博客

　　从事SEO（搜索引擎优化）工作的人们可以与私人搜索引擎管家相提并论。作为合格的管家，您必须了解所服务人员的习惯，爱好和健康状况。蜘蛛池博客编辑器已编译并发布。

　　SEO服务的对象是搜索引擎。您必须牢记其操作规则，工作原理，习惯，优缺点等，并多做一些练习。练习得越多，您的经验就会越丰富。

　　搜索引擎是由人们创建的，因此可以合理地找到它们。搜索引擎的工作流程具有三个主要工作流程，即爬网，预处理和服务输出。

　　一、爬行爬行：

　　抓取是搜索引擎蜘蛛从要抓取的地址库中提取要抓取的URL，访问该URL并将读取的HTML代码存储在数据库中的功能。爬虫的抓取是像浏览器一样打开此页面，并且像用户对浏览器的访问一样，它还将在服务器的原创日志中保留一条记录。

　　爬网爬网是搜索引擎工作中的重要一步。它对所有需要爬网进行处理和分析的位置进行爬网。因此，如果在抓取此部分时出错，则稍后将完全瘫痪。

　　搜索引擎已经提前处理了抓取的网页。采集工作还必须按照一定的规则进行，基本上具有以下两个特点：

　　1、批量采集：采集Internet上所有具有链接的网页，这需要几个星期。缺点是增加了额外的带宽消耗，并且时效性不高。

　　2、增量采集：这是批处理采集的技术升级，可以完美弥补批处理采集的缺点。以原创方式采集新添加的网页，更改自上次采集以来已更改的页面，并删除重复的和不存在的网页。

　　二、预处理：

　　由搜索引擎蜘蛛抓取的原创页面不能直接用于查询排名处理。用户输入关键词后，也无法直接返回排名结果。因此，必须对爬网的页面进行预处理，以准备最终的查询排名。

　　1、提取文字

　　当搜索引擎获取页面的HTML代码时，它要做的第一件事是从HTML文件中删除标签和程序，并提取可用于排名处理的页面文本内容。

　　2、中文分词

　　分词是中文搜索引擎迈出的独特一步。英语句子中单词之间存在空格。搜索引擎可以将句子直接分为单词组，而中文则不能。搜索引擎需要识别哪些单词组成一个单词，哪些单词本身就是一个单词。例如，“空气开关”将分为两个词：“开关”和“空气”。

　　基本上有两种中文分词方法：基于字典的匹配和基于统计的。

　　基于字典的匹配方法是指将要分析的汉字段与预建字典中的条目进行匹配。从要分析的中文字符串扫描字典中的现有条目将成功匹配，或切出一个单词。如果遵循扫描方向，则基于字典的匹配方法可以分为正向匹配和反向匹配。根据匹配长度的优先级，可以分为最大匹配和最小匹配。首先混合扫描方向和长度，可以生成不同的方法，例如前向最大匹配和反向最大匹配。字典匹配方法计算简单，其准确性在很大程度上取决于字典的完整性和更新性。

　　基于统计的分词方法是指分析大量文本字符并计算相邻字符的统计频率。彼此相邻出现的字符越多，形成单词的可能性就越大。基于统计的方法的优点是它对新单词的反应更快，也有助于消除歧义。

　　基于字典匹配和统计的分词方法各有优缺点。实际使用中的分词系统结合了两种方法，既快速又高效，可以识别新词和新词，消除歧义。

　　3、停用词

　　无论是英文还是中文，页面内容中都会经常出现一些单词，但对内容没有影响，例如“的”，“地”和其他辅助词“ ah”和“ ha”这样的感叹词，副词或介词，例如“ thebyby”，“ yi”和“ que”。这样的单词称为停用词。搜索引擎将在索引页面之前删除这些停用词，以使索引数据的主题更加突出并减少不必要的计算。

　　4、消除噪音

　　5、删除重复

　　同一文章文章将由不同的网站使用，搜索引擎不喜欢这种重复性内容。想象一下，如果用户在前两页上看到相同的文章文章，而文章网站不同，则不可避免地会导致不良的用户体验。搜索引擎只希望返回相同的文章文章，因此它需要在索引之前识别并删除重复的内容。此过程称为重复数据删除。

　　重复数据删除的基本方法是计算页面特征关键词的指纹，即从页面的主要内容中选择最具代表性的部分关键词（通常是最频繁出现的关键词），并且然后计算这些关键词数字指纹。在关键词的选择是在分词之后，停止单词和降噪之后。选择10个特征关键词以达到较高的计算精度是常识，然后选择更多的单词对提高重复数据删除的准确性没有多大帮助。

　　6、前进索引

　　前向索引也可以简称为索引。在前五个步骤之后，搜索引擎将获得一个可以反映页面主要内容的唯一字符串。接下来，搜索引擎可以提取关键词，根据分词程序对单词进行划分，然后将页面转换为关键词的集合，并在关键词上记录每个关键词的频率，出现次数和格式页面（例如字幕标签，粗体字，H标签，锚文本等的存在），位置和其他信息。这样，每个页面都可以记录为关键词组字符串，其中还记录了每个关键词的权重信息，例如词频，格式和位置。

　　7、向后索引

　　前向索引不能直接用于排名。假设用户搜索关键词 2（请参见上图）。如果只有前向索引，则排名程序需要扫描所有索引库文件以查找收录关键词 2的文件，然后执行相关性计算。此计算量不能满足实时返回排名结果的要求。

　　8、链接关系计算

　　搜索引擎对页面内容进行爬网之后，必须预先计算：页面上的哪些链接指向其他页面，哪些链接在每个页面上导入以及链接使用的锚文本。这些复杂的链接指向关系形成网站和页面的链接权重。 Google PR值是这种链接关系的最重要体现之一。其他搜索引擎也执行类似的计算，尽管它们没有将其称为PR值。

　　9、特殊文件处理

　　除了HTML文件之外，搜索引擎通常还可以抓取和索引各种基于文本的文件类型，例如PDF，Word，WPS，XLS，PPT，TXT文件等。我们经常在搜索中看到这些文件类型结果。但是，当前的搜索引擎尚无法处理图像和视频，只能对Flash等非文本内容以及脚本和程序进行有限的处理。

　　1 0、质量判断

　　在预处理阶段，搜索引擎将判断页面内容的质量，链接质量等。近年来，百度和Google引入的算法是预先计算然后发布的，而不是实时计算的。这里提到的质量判断收录许多因素，并且不限于关键词的提取和计算或链接的数值计算。例如，页面内容的判断可能包括用户体验，页面布局，广告布局，语法，页面打开速度等，还可能涉及模式识别，机器学习和人工智能等方法。

　　三、服务输出：

　　1、输出结果

　　搜索引擎最终将跟踪用户的搜索输出结果。这是我们看到的百度快照。根据以前的搜索引擎综合评估的机制原理，我们可以看到搜索引擎已经进行了初步处理，然后根据用户的实际搜索词进行特定的调整，然后输出结果。

　　2、智能完美

　　搜索引擎还有另一项工作，那就是它不断学习和自我完善。通过这种智能学习，规则得到了不断完善，搜索用户可以显示出更符合期望的搜索结果。

0

2021-05-18

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从事SEO（搜索引擎优化）工作的人可以比喻成贴身管家

0 个评论

发起人