采集的文章和关键词不符(搜索引擎是如何判断关键词和文章之间的相关性呢?(一))
优采云 发布时间: 2021-11-18 12:02采集的文章和关键词不符(搜索引擎是如何判断关键词和文章之间的相关性呢?(一))
搜索引擎首先对要分析的网页进行净化;对提取的内容进行分词;从初步分词结果中去除无意义的词;确定关键词的权重
图 7315-1:
一般来说,一个词或词组能否成为文章的关键词,主要取决于该词或词组反映文章中心思想的能力。关键词 和 文章 之间的相关性也主要是为了说明一个可选的单词和短语。对于指定的文章,它反映了这个文章的中心思维能力或话题意义。关键词的提取受词在文章中出现的位置、出现频率以及词的语义特征的影响。那么,搜索引擎是如何判断关键词和文章之间的相关性的呢?在这里,作者根据我自己的一些观点提出了一些想法,我应该用它们来征求大家的意见。
我个人认为搜索引擎应该从以下几个步骤来分析关键词和文章的性别:
第一:搜索引擎首先对要分析的网页进行净化
网页净化主要是从网页中去除大量无用的广告、导航栏等页面模板噪音和无意义的内容,如JavaScript脚本、CSS标签等。至于搜索引擎采用的算法,我们不知道,但个人估计应该是分不同的网页,通过衡量网页块的重要性来确定收录主题内容的块,然后提取。这块的内容,至于搜索引擎如何判断网页的重要性,就是另外一个话题了。
二:对提取的内容进行分词
我个人认为可能是搜索引擎采用了某种算法,先将内容分类为词,得到概率最高的N个分词结果;然后,使用角色标记方法识别未注册的词并计算它们的概率。将未注册的词加入分词词图中,然后作为普通词处理,最后进行动态规划,选取N个最大概率分词和标注结果。并记录下来。
第三:去除初步分词结果中无意义的词
搜索引擎对第二步的分词结果进行分析,去除一些模态助词、形容词等非实体词和一些词。同时还要过滤掉单字词所表达的不完整信息。去除停用词是通过创建停用词列表来实现的。这样,去掉这些无意义的词后,剩下的词才有意义,值得分析。
第四:确定分析关键词的权重
完成文章的分词和提纯后,需要对所有关键词文章进行分析。作者的想法是,搜索引擎将文本表示为一个四维特征向量,每个一维分量由关键词及其权重组成。一般认为确定关键词在文本中的权重主要由三部分组成,词频、位置和词义共同影响决策。词频和位置对词或词组的影响可以通过一定的算法来确定,词义的权重也可以通过固定的算法进行分析计算。搜索引擎使用set算法对上述关键词进行计算分析。从而得到最终的结果。
笔者认为,经过搜索引擎分析上述步骤后,就得到了最终的结果,笔者在这里谈一下搜索引擎的具体分析方法只是个人意见:
第一:基于关键词位置权重的搜索引擎
在文档中,关键字的位置对于搜索引擎确定关键字在页面上的权重起着重要作用。比如域名被搜索引擎认为是网站最固定的因素。例如,域名中收录DVD关键字的域名在用户搜索关键字DVD时具有先天优势。标题是网站最宝贵的资源。搜索引擎认为标题显示在浏览器的标题栏中。因为它是展示给用户的,所以它是文件最重要、最简洁的摘要。适当突出标题中关键词的权重非常有利于提高排名。
第二:搜索引擎根据关键词的出现频率
网页中不同关键词的总数,这是一个很重要的方面。我个人认为虽然关键词的位置和词频对关键词的权重影响很大,但是词频高并不能决定这个词适合关键词。举个简单的例子,我们优化了一篇文章文章中的“美国”。词出现的频率很大,出现的位置也很重要,但是这个词还是不能给予更高的权重,因为“美国”在其他文档中也广泛出现。在这些文档中,“美国” ” 也有高频,位置也比较重要。所以,那些高频但不适合关键词的词
第三:文档中重要关键词之间的距离
个人分析,文档中重要关键词之间的距离也应该是衡量关键词和文章相关性的一个重要方面。
笔者认为,经过以上一系列的处理,搜索引擎会为这个关键词给这个文章一定的分数。当用户搜索某个关键词时,得分高的关键词 @文章排名第一的机会就大很多,当然这排除了外链的影响。