如何优化搜索引擎(*敏*感*词*考试词典中的常见停止词反应及方法(图))
优采云 发布时间: 2021-12-27 03:07如何优化搜索引擎(*敏*感*词*考试词典中的常见停止词反应及方法(图))
Title="今天是愚人节的永久链接">今天是愚人节
去掉HTML代码后,剩下的用于排名的文字就只有这句话:今天是愚人节。
2、中文分词
分词是中文搜索引擎独有的一步。搜索引擎存储和处理页面,用户搜索基于单词。英语等语言中词与词之间存在空格,搜索引擎索引程序可以直接将句子分成词组。但是,中文单词之间没有分隔符,句子中的所有字符和单词都连接在一起。搜索引擎必须首先区分哪些词构成一个词,哪些词本身就是一个词。例如,“*敏*感*词*考试”将分为“*敏*感*词*”和“考试”两个词。
中文分词方法基本上有两种,一种是基于词典匹配,一种是基于统计。
基于字典的匹配:将一段待分析的汉字与预先选择的字典中的一个词条进行匹配,扫描待分析的汉字字符串,在字典中找到匹配成功的词条,或者切出一个词.
基于统计匹配:分析大量文本样本,计算机计算出相邻单词出现的统计概率。相邻的单词越多,形成单词的可能性就越大。基本统计方法的优点是对新出现的词反应更快,有助于消除歧义。
3、去停止这个词
无论是英文还是中文,页面内容中都会出现一些频繁出现但对内容没有影响的词,如“的”、“地”、“得”等辅助词“阿”、“哈” " "Ya" 等感叹词,"Thus"、"Yi" 和 "Que" 等副词或介词。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英语中常见的停用词包括 the、a、an、to、of 等。
搜索引擎会在索引页面前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算。
4、去除噪音
大多数页面上还有一部分内容对页面主题贡献不大,比如版权声明文字、导航栏、广告等,以常见的博客导航为例。文章分类、历史档案等导航内容几乎出现在每个博客页面上。这些页面本身与“类别”和“历史”这两个词无关。当用户搜索“历史”和“类别”这些关键词时,仅仅因为这些词出现在页面上而返回博客帖子是毫无意义和完全无关的。因此,这些区都受到噪音的影响,只能起到分散页面话题的作用。
搜索引擎需要识别并消除这些噪音,排名时不使用噪音内容。消除噪声的基本方法是根据HTML标签将页面划分成块,区分页眉、导航、正文、页脚、广告等区域。网站上的大量重复块往往是噪音。页面去噪后,剩下的就是页面的主要内容了。
5、卸重
去重的基本方法是对页面特征的关系词计算指纹,即选取页面主要内容的大部分关键词(往往是出现频率最高的关系词),然后计算这些关键词的数字指纹。这些关键词选择是经过分词、去停止词和降噪之后的。一般选择10个特征关键词可以达到比较高的计算准备,选择更多的词对去重准确率的提升贡献不大。
单纯添加“的”、“地”、“得”来改变文本段落位置的伪原创方法,逃不过搜索引擎的去重算法。
6、远期指数
7、反向索引
8、 链接关系计算
页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本,这些复杂的链接指向关系构成了网站和页面的链接权重。
9、特殊文件处理
除了 HTML 文件,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等,我们经常在搜索结果中看到这些文件类型。但是,当前的搜索引擎无法处理图像、视频和Flash 等非文本内容,也无法执行脚本和程序。
尽管搜索引擎在识别图片和从Flash中提取文本内容方面取得了一些进展,但距离通过阅读图片、视频和Flash内容直接返回结果的目标还很远。图片和视频内容的排名往往以与其相关的文字内容为依据。
以上是SEO网站优化搜索引擎预处理规则。如果您对SEO网站优化感兴趣,请继续关注。每天更新...