搜索引擎优化规则(搜索引擎的处理规则都有哪些?只有这样才能做到有的放矢)
优采云 发布时间: 2022-01-28 17:20搜索引擎优化规则(搜索引擎的处理规则都有哪些?只有这样才能做到有的放矢)
要想做好SEO,最重要的是要掌握搜索引擎的工作原理。要想全面了解搜索引擎,还需要了解搜索引擎的处理规则。只有这样,你才能成为目标。
首先,提取文本。目前的搜索引擎仍以文字内容为主。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文本外,还收录大量的HTML格式标签、JavaScript程序等。对于不能用于排名的内容,搜索引擎预处理需要做的第一件事就是从HTML文件中去除标签和程序,提取网页中可用于排名处理的文本内容。
二是中文分词。分词是中文搜索引擎特有的一个步骤。搜索引擎基于单词存储和处理页面和用户搜索。英语等语言用空格隔开,搜索引擎索引程序可以直接把句子分成词组。但是,中文单词和单词之间没有分隔符,一个句子中的所有单词和单词都是连接在一起的。搜索引擎必须首先区分哪些词组成一个词,哪些词本身就是一个词。
第三,寻找停用词。无论是英文还是中文,都会有一些在页面内容中出现频率高,但对内容没有影响的词,比如“的”、“地”、“德”等辅助词,搜索引擎索引前一页将去掉这些停用词,使索引数据的主题更加突出,减少不必要的计算量。
第四,去除噪音。大多数页面上也有一些对页面主题没有贡献的内容,比如版权声明文字、导航栏、广告等。而对这个没有贡献的内容都是噪音,只能播放页面主题中分散注意力的角色。
第五,去重。去重的基本方法是计算页面特征相关词的指纹,即从页面主要内容中选取大部分关键词,然后计算这些关键词的数字指纹@>。这些 关键词 选择是在分词、去除停用词和降噪之后进行的。