地瓜简单分享搜索引擎是怎样实现搜素引擎排名的

优采云 发布时间: 2021-06-15 00:11

  地瓜简单分享搜索引擎是怎样实现搜素引擎排名的

  您对搜索引擎了解多少?自己的搜索引擎排名的基本原则应该是清楚的。红薯也觉得现在做SEO的大虾越来越多。无论什么感受和讨论几乎都是一样的。很多时候我们认为我们是SEO。其实,我们只知道一些简单的方法和技巧,真正的原理,什么是真的不懂。所以,大瓜觉得自己有必要多学习一下,认识到SEO其实才是核心。

  搜索引擎的工作过程非常复杂。红薯简单分享了搜索引擎如何实现页面排名。正如ZAC书中所说,“这里介绍的内容与真正的搜索引擎技术相比,只是皮包骨,但对于SEO人员来说已经足够了。”搜索引擎的工作过程大致可以分为三个阶段。 (1)Crawling 和爬取:搜索引擎蜘蛛通过跟踪链接访问网页,并获取页面的 HTML 代码存储在数据库中。(2) 预处理:索引程序进行文本提取、中文分词、并对抓取的页面数据进行索引等待处理准备调用排名程序。(3)rank:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后生成搜索特定格式的结果页面。

  本文红薯分享搜索引擎工作原理第三步:步骤、方法、排名:搜索引擎蜘蛛抓取页面后,索引程序计算倒排索引,搜索引擎准备随时准备处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引库数据,计算排名显示给用户。排名过程与用户直接交互。

  1.搜索词处理

  搜索引擎收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括以下几个方面。

  (1)中文分词。和页面索引一样,搜索词也必须是中文分词,查询字符串必须转换成基于词的关键词组合。分词的原理是同页面分词。

  (2)去停用词。与索引一样,搜索引擎也需要去除搜索词中的停用词,以最大限度地提高排名的相关性和效率。

  (3)Command处理。查询词切分后,搜索引擎默认的处理方式是关键词双头螺柱联之间用“与”逻辑。也就是说,当用户搜索 "*method" , 程序分割为 "*" 和 "method". 搜索引擎排序时,假设用户正在查找同时收录 "*" 和 "method" 的页面。只有 "*" 这样做not contains "method" , 或者只收录"method" 而没有 "*" 的页面,被认为是不符合搜索条件的。当然,这只是为了说明原理的一个非常简化的陈述。实际上,我们仍然只会看到关键词的一部分 另外,用户输入的查询词还可能收录一些高级搜索指令,比如加号、减号等,搜索引擎需要相应地识别和处理. 高级搜索指令后面会详细介绍。

  (4)Spelling 错误更正。如果用户输入明显错误的单词或拼错英文单词,搜索引擎会提示用户使用正确的单词或拼写。

  (5)集成搜索触发。某些搜索词会触发集成搜索。比如名人名字经常触发图片和视频内容。当前的热门话题很容易触发信息内容。哪个词触发哪个集成搜索也需要计算在搜索词处理阶段。

  2.文件匹配

  搜索词处理后,搜索引擎根据词获取关键词*。文件匹配阶段是查找收录所有关键词的文件。索引部分提到的倒排索引可以快速完成文件匹配。

  假设用户搜索“关键词2

  关键词7”,排名程序只要在倒排索引中找到“关键词2”和“关键词7”这两个词,就可以分别找到收录这两个词的所有页面。一个简单的计算可以找到同时收录“关键词2”和“关键词7”的所有页面:文件1和文件6。

  3.初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关性计算,因为通常会找到数十万、数百万甚至数千万个文件。实时对这么多文件进行关联计算需要很长时间。

  事实上,用户不需要知道所有的数十万或数百万的匹配页面。大多数用户只会查看前两页,即前 20 个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面的重要部分。使用搜索引擎的人会注意到,通常会有 100 个以上的搜索结果页面。当用户点击搜索结果页面底部的“下一页”链接时,他们只能看到第100页,也就是1000条搜索结果。搜索引擎只需要计算前1000条结果的相关度即可满足要求。

  问题是,在没有计算相关性的情况下,搜索引擎如何知道哪些千个文件是相关的?因此,选择初始页面子集进行后期相关性计算必须依靠其他特征而不是相关性,主要是页面权重。由于所有匹配的文件已经具有基本的相关性(这些文件收录所有查询关键词),搜索引擎通常使用不相关的页面特征来选择初始子集。初始子集的数量是多少?成千上万?也许更多,外人不知道。但可以肯定的是,当匹配的页面数量很大时,搜索引擎不会计算这么多页面,而是必须选择一个页面权重较高的子集,然后计算该子集中页面的相关性。

  4.相关计算

  选择初始子集后,计算子集中页面的关键词相关度。计算相关性是排名过程中的重要一步。相关性计算是搜索引擎算法中让 SEO 变得有趣的部分。

  影响相关性的主要因素包括以下几个方面。

  (1)关键词常用度。分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词,对搜索意义的贡献越小term,而less 更常用的词对搜索词的意义有贡献。例如,假设用户输入的搜索词是“we Pluto”,“we”这个词使用频率很高,它会出现在很多页面上。“搜索词的识别度和意义相关性贡献不大。找出那些收录“我们”一词的页面对搜索排名的相关性影响不大。太多页面收录“我们”一词。未来. 过几年,不会有实质性的变化。好吧,以上是我的一些看法,欢迎大家指正。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线