搜索引擎预处理步骤及注意事项,你知道吗?

优采云 发布时间: 2021-06-15 22:35

  搜索引擎预处理步骤及注意事项,你知道吗?

  搜索引擎预处理步骤:

  1)Extracting text 是指从 HTML 代码中提取主题内容并去除标签。

  2)中文分词是通过字典匹配和统计匹配来分离关键词。根据相关性,不同的页面切分结果可能不一样。

  3)Go 停用词,即停用词,如“de地得”的一些助词和“ahhhhh”的感叹词,英语单词“a an the toof”等。

  4) 去噪,即去除一些与页面主题内容无关的文本,如分类、历史等。

  5)去除重复项,即判断该页面是否与其他页面或网站内容重复,并删除重复项。 PS:搜索引擎讨厌那些完全采集和网站复制其他网站内容的人,会惩罚他们,比如降低他们的权利。

  6)Positive index,即对抓取到的页面进行排序,每个页面对应多个关键词。

  7)Inverted index,即爬取的页面按关键词排序,因为单靠前向索引的计算量无法满足实时返回排名结果的要求。

  8)link计算关系,即计算页面上的各种链接关系,包括锚文本、导入链接、导出链接。

  位置和点击率(只适用,不适用,尤其是中文搜索习惯不同):

  根据AOL美国在线意外发布的数据分析,搜索引擎搜索结果的前5页大致占了99%的流量,第一页占了89.71%,第二页占4.37%,第二页流量占2.42%,第1到10的点击率分别为42.1%、11.9%、8. 5%、6.1%、4.9%、4.1%、3.4%、3%、2.8%、3%。第10位高于第9位的原因可能是用户在浏览到页面的最后一个结果时没有其他选择,所以他点击了最后一个页面。

  必须学习的对 SEO 非常有用的高级搜索命令:

  1)双引号---搜索结果完全匹配关键词

  2)减号---搜索结果在减号后排除关键词

  3)星号---什么意思,比如搜索“*gun”,搜索结果可以是手*敏*感*词*,步*敏*感*词*,甚至是霰弹*敏*感*词*。 * 可以是任何字符,包括符号和字母。

  4)inurl:---搜索结果中的url必须收录搜索到的关键词。

<p>5)inanchor:---该命令返回的结果是导入链接锚文本中收录搜索到的关键词的页面。比如B网站有一个锚文本“看这里”,他链接到A网站的X页面,然后搜索inanchor:看这里,结果页面是A网站的X页面

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线