搜索引擎优化好学吗(小白从0基础到精通SEO只需要3个月?)
优采云 发布时间: 2022-02-09 06:07搜索引擎优化好学吗(小白从0基础到精通SEO只需要3个月?)
小白从0基础到精通SEO只需要3个月。如果是自学,最好有一套完整的教程。现在我正在创建一个“SEO初学者到精通教程”,您可以关注公众号免费学习。下面我与大家分享其中之一:
上一篇文章讲了搜索引擎采集网页的过程,以及搜索引擎抓取网页所使用的工具和方法。
首先要明白,搜索引擎检索到的原创页面不能直接参与排名,需要进行处理。我们将此过程称为预处理。
预处理是由搜索引擎在后台提前完成的,用户在搜索时不会感觉到。当我们优化网站时,有很多方面会影响预处理过程。有深刻的理解。
搜索引擎预处理
一、提取文本
以中文搜索引擎为例,搜索引擎会分析网页文件HTML代码中的每一个元素,去除标签、程序等元素,提取出可用于网页排名的文本内容。所以在优化网站的时候,请注意网页尽量以文字为主,不要用图片代替文字,以免蜘蛛识别。
二、中文分词
中文分词是搜索引擎从捕获的页面中提取文本后,对文本进行拆分和重组的过程。中文分词是中文搜索引擎独有的一步。中文分析点有两种类型:字典匹配和基于统计。
1、基于字典的匹配方法是指将一段待分析的汉字与预先制作的字典中的词条进行匹配,从待分析的字符串中扫描字典中已有的词条是成功的。或者拆分一个词。根据扫描方向,基于字典的匹配可以分为正向匹配和反向匹配。根据匹配长度优先级的不同,可以分为最大匹配和最小匹配。优先混合扫描方向和长度可以产生不同的方法,例如正向最大匹配和反向最大匹配。字典匹配方法计算简单,其准确性很大程度上取决于字典的完整性和更新。
2、基于统计的分词方法是指对大量文本单词进行分析,计算单词相邻出现的统计频率。出现的相邻单词越多,它们形成单词的可能性就越大。基于统计的方法的优点是对新出现的词更敏感,也有利于消歧。
基于字典匹配和统计的分词方法各有优缺点。实际使用的分词系统混合使用了这两种方法,快速高效,可以识别新词和新词,消除歧义。
在英语等语言中,单词之间有空格作为自然分隔,搜索引擎索引程序可以直接将句子分成单词的组合。在中文中,单词之间没有分隔符。一个句子中的所有单词和单词都是连接在一起的。搜索引擎首先要区分哪些词构成一个词,哪些词本身就是一个词。
在中文分词中,第一次从网页中提取的文本应该按照词组进行划分。例如,“iPhone 壳多少钱”可以分为“苹果手机”、“iphone 壳”、“多少钱”和“iPhone 壳多少钱”。分词时会过滤掉非语义词,如:的、得、啊、哦、啊、not only、but等。
这里需要提醒一下,在做网站优化的时候,我们需要将关键词出现在网页中合适的位置,比如在标题中,在标签中,这样搜索引擎才会在分词方面更准确。提取要优化的 关键词。
三、删除重复页面
页面去重是页面分词之后的下一步。对分词后的页面进行比较,去除重复页面。
如果搜索引擎中出现大量相同的内容,就会影响用户的搜索体验。为了避免这种情况,搜索引擎会对页面进行重复数据删除。很多人在优化的时候喜欢在文章中插入非语义的词,比如:得、地、的,或者换段伪原创,其实逃不过搜索引擎算法的,所以在优化时,制作高质量的内容是王道。
四、计算页面重要性
页面的重要性,也称为“权重”。页面权重主要由两个方面决定:网站内容质量和传入链接数(指向链接数)。所以外链优化也是SEO的重要一环,SEO人需要同时关注内容质量和入链。
五、索引
1、前向索引
正指数也可以称为指数(Index)。经过前面的步骤,搜索引擎得到的是一个唯一的基于单词的字符串,它可以反映页面的主要内容。接下来,搜索引擎可以提取关键词,根据分词程序划分关键词,将页面转化为关键词的集合,记录页面上的每一个关键词 . 出现频率、出现次数、格式(如出现标题标签、粗体、H标签、锚文本等)、位置等信息。这样,每一页就可以记录为一组关键词,其中还记录了每个关键词的词频、格式、位置等权重信息。搜索引擎索引程序存储页面和 关键词 成一个词汇结构并存储在索引库中。简化的索引词汇表如下图所示:
正指数
每个文件(即处理后的页面)对应一个文件ID,文件内容表示为关键词的集合。事实上,在搜索引擎索引库中,关键词也被转化为关键词ID。这种数据结构称为前向索引。
2、倒排索引
正排名指数还不能直接用于排名。假设用户搜索关键词2(见上图),如果只有正索引,排序程序需要扫描所有索引库文件,找到收录关键词2的文件,然后进行相关性计算。这个计算量不能满足实时返回排名结果的要求。
因此,搜索引擎会将正向索引数据库重构为倒排索引,并将文件对应到关键词的映射转换为关键词到文件的映射,如下图所示:
倒排索引
在倒排索引中关键词为主键,每个关键词对应一系列文件,而这个关键词出现在这些文件中,这样当用户搜索某个关键词,排序程序在倒排索引中定位到这个关键词,可以立即找到所有收录这个关键词的文件。
六、分析链接
链接关系计算是预处理中的一个重要步骤。主要的搜索引擎排名因素收录有关网页之间链接流的信息。必须计算页面上哪些链接指向哪些其他页面,每个页面有哪些传入链接,链接的锚文本是什么,这些复杂的链接到点的关系构成了网站的链接权重和页面。
以上六个步骤就是搜索引擎预处理的全过程。下一节将讨论用户搜索问题时搜索引擎如何返回数据。