从互联网上抓取网页数据库的顺序看超链分析技术
优采云 发布时间: 2021-06-30 00:05从互联网上抓取网页数据库的顺序看超链分析技术
这个文章会跟大家分享一下搜索引擎的搜索顺序。小编觉得很实用,分享给大家参考,跟着小编一起来看看吧。
搜索引擎检索顺序:1、从网上抓取网页; 2、 建立索引数据库; 3、在索引数据库中搜索和排序; 4、 对搜索结果进行处理和排序。
搜索引擎检索顺序:
搜索引擎是指利用特定的计算机程序,按照一定的策略,在互联网上采集信息,对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎并不是真正的互联网。它搜索的实际上是一个预先组织的网络索引数据库。真正意义上的搜索引擎,通常是指采集互联网上千万到数十亿的网页,并将我的账户(即关键词)中的每一个词都编入索引。建立一个全文搜索引擎来索引数据库。如今,搜索引擎普遍采用超链接分析技术。除了分析被索引网页本身的内容*敏*感*词*的文本。所以,有时候,即使某个词没有出现在某个页面A中,比如
“Information Retrieval”,但是如果有一个网页B指向这个网页A,并带有“Information Retrieval”的链接,那么用户在搜索“Information Retrieval”时也能找到网页A。而且,如果“信息检索”链接指向网页A的网页越多,那么当用户搜索“信息检索”时,会认为网页A的相关性更高,排名也会更高。
搜索引擎的原理可以分为四个步骤:从互联网上抓取网页,建立索引库,在索引库中搜索和排序,处理和排序搜索结果。
(1),从互联网上抓取网页:使用蜘蛛系统程序,可以自动从互联网上采集网页,自动上网,沿着任意网页中的所有网址抓取到其他网页,重复这个过程,并采集所有爬回来的网页。
(2)、建立索引数据库:分析索引系统程序对采集到的网页进行分析,提取相关网页信息(包括网页的网址、编码类型、收录在网页中的关键词、关键词位置)页面内容、生成时间、大小、与其他网页的链接关系等),并根据一定的相关性算法进行大量复杂的计算,得到每个网页与页面内容中每个关键词的相关性和超链接(或重要性),然后使用这些相关信息构建网络索引数据库。
(3),在索引库中搜索和排序:当用户输入关键词时,搜索系统程序会从网页索引库中找到所有与关键词匹配的相关网页。因为相关网页使用具体到关键词k5@的相关度已经计算出来了,所以只需要根据已有的相关值进行排序即可,相关度越高排名越高,最后页面生成系统对搜索结果进行整理返回给用户的链接地址和页面内容摘要等内容。
(4),对搜索结果进行排序:关键词相关信息的所有相关网页都记录在索引库中,只需要将相关信息和页面级别合成一个相关值,然后sort ,相关性越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
感谢阅读!关于“搜索引擎检索的顺序是什么”的文章分享到这里,希望以上内容可以对大家有所帮助,让大家学到更多的知识,如果觉得文章不错,可以分享让更多人看到!