搜索引擎优化原理(*人工录入的*敏*感*词*网站*蜘蛛爬取页面后解析出网址)

优采云 发布时间: 2021-09-13 21:09

  搜索引擎优化原理(*人工录入的*敏*感*词*网站*蜘蛛爬取页面后解析出网址)

  *手动输入seed网站

  *蜘蛛抓取页面后解析出网址,如果不存在则输入

  *通过站长工具提交网址,例如谷歌搜索控制台

  创建索引

  提取文本:搜索引擎将提取页面上的可见文本和收录文本信息的代码。比如meta标签、alt属性、锚文本等

  分词:比如哪里可以买到高品质的表,那么高品质的表会被认为是一个词,而不是买高的。针对不同国家的字符,各个搜索引擎的分词方法不同。

  停止词:中英文中常有对页面主要内容影响不大的词,如情态助词、介词、副词、感叹词等。搜索引擎会在创建这些页面之前删除这些词。

  去噪:页面上会有一些对确认页面主题没有帮助的内容,如版权声明、导航等,这些内容在入索引前也会被清除。

  重复数据删除:因为搜索引擎不喜欢重复的内容,过于重复的页面也会被清除。所以我们网站页面的内容一定要尽量淡化。

  正向索引:经过上述步骤,搜索引擎会得到能够反映页面主题的内容。它会记录每个关键词在页面上出现的频率、格式和位置,然后将这些数据存储在索引库中。

  倒排索引:前向索引对应页面关键词,倒排索引对应页面关键词。这样用户在搜索时可以快速识别页面

  链接关系的计算:链接关系的计算是针对内部链接和外部链接的。维度包括链接数和导入链接的权重。谷歌公关就是这种计算的体现。

  特殊文件:Google 不仅可以抓取 html 网页,还可以抓取 PDF、TXT 和 Word 等文本比例较高的文档。

  排名

  *搜索词:停止对用户输入的搜索词进行文字处理和搜索命令处理

  *文件匹配:用户可以搜索网页,也可以是 PDF 或 JPG 图像。

  *初始子集选择:由于现阶段可以匹配的网页数量巨大,会根据页面权重先选择一个子集

  *相关计算(最重要的一步):

  关键词Commonity:越常用的词对搜索词的用处越小关键词密度:密度越大,页面的相关性越高,但现在这个因素对页面排名不太重要. 关键词的位置和形式:粗体和H标签表示这个更重要关键词;段首关键词比段尾关键词权重高,所以建议搜索量最高关键词放在段首,其余关键词 更自然地分布在文章 中。 关键词匹配度:能够完全匹配用户的搜索词,证明页面更相关。页面权重:页面权重与导入链接、DA(域名权重)等因素有关。

  *排名过滤:现在基本拿到了关键词的排名,但是对于过去作弊的网站,谷歌会降低排名以示惩罚。

  *页面展示:排名确定后,搜索引擎会调用页面的meta标签,即标题和描述。

  *搜索缓存:对于重复的搜索词,搜索引擎会缓存结果。

  *搜索日志;搜索引擎会记录用户的搜索词、网页点击次数、ip、搜索时间,方便判断搜索结果质量、调整算法、预测搜索趋势。

  ——————————————————————————————————————

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线