搜索引擎发展背景、分类及特点以及工作原理和工作流程
优采云 发布时间: 2021-05-05 19:26搜索引擎发展背景、分类及特点以及工作原理和工作流程
本章介绍了搜索引擎的发展背景,分类和特点,然后详细说明了搜索引擎的工作原理和工作流程,最后以示例介绍了几种常见的搜索引擎。搜索引擎简介2. 1搜索引擎简介搜索引擎的背景出现在Internet发展的早期,网站相对较少,新闻搜索也更容易。但是,随着新闻技术的飞速发展,特别是互联网应用的迅速普及,网站变得越来越多,全球互联网页面的数量每天都在增加数千万。在庞大的新闻网络中找到所需的资料,无异于在大海捞针中找针。此时,搜索网站应运而生,以满足每个人的新闻检索需求。搜索引擎包括全文索引,目录索引,元搜索引擎,垂直搜索引擎,集合搜索引擎,门户搜索引擎和免费链接列表等。搜索引擎包括四个部分:搜索器,索引器,搜索器和用户界面。 2. 2搜索引擎分类搜索引擎根据其工作方法可以分为三种类型,即全文搜索引擎,搜索索引/目录和元搜索引擎。引擎)。全文搜索引擎全文搜索引擎是名副其实的搜索引擎,是目前广泛使用的主流搜索引擎。国外有代表性的全文搜索引擎包括Google和Yahoo!。国内较著名的全文搜索引擎包括百度等。
他们都通过从Internet提取各种信息来建立数据库,并从该数据库中检索与用户查询条件相匹配的相关记录,最后以一定顺序将它们返回给用户。目录搜索引擎尽管它具有搜索功能,但从严格意义上来说,它并不是真正的搜索引擎。它只是按类别分类的网站个链接的列表。用户根本不需要搜索关键词(关键字),仅依靠分类目录就可以找到所需的信息。元搜索引擎当元搜索引擎接受用户的查询请求时,它将同时在多个其他搜索引擎上搜索并将结果返回给用户。著名的元搜索引擎包括Dogpile,Vivisimo等。非主流形式的搜索引擎免费链接列表三大搜索引擎2. 3搜索引擎的工作原理搜索引擎由搜索者,索引器,检索器和用户组成。接口。搜索引擎的主要工作流程包括:“页面抓取”,“页面分析”,“页面排序”和“关键字搜索” 2. 3. 1页面抓取搜索引擎将搜索结果获取到数据库中,然后读取网页内容,并在网页中找到其他链接地址,然后通过这些链接地址查找下一个网页,并继续循环播放,直到此网站的所有网页都已被抓取为止。 1、页面爬网过程“蜘蛛程序”通过这些URL列表对页面进行爬网。 “蜘蛛”不断从这些页面获取URL资源并存储页面,然后加入URL列表。这样一个连续的循环,搜索引擎可以从Internet上获得足够的页面。
2、页面收录的原理从指定页面开始,跟随页面中的链接,根据特定策略遍历网站中的页面。继续从URL列表中删除访问的URL,存储原创页面,并同时提取原创页面中URL的信息:然后将该URL分为两类:域名和内部URL,并确定是否该URL之前已经被访问过。尚未访问的URL将添加到URL列表中。递归扫描URL列表,直到用尽所有URL资源。 3、“用户提交的”页面收录方法2. 3. 2页面分析搜索引擎首先为存储的原创页面编制索引,过滤原创页面的标签信息,从网页中提取主体信息,然后然后对文本信息进行切词,建立关键词索引,得到页面与关键词之间的对应关系,最后重新组织所有关键词,建立关键词与页面之间的对应关系。为了提高页面检索的效率,搜索引擎需要索引已爬网的原创网页。由于URL是页面的入口地址,因此对原创页面建立索引实际上是对微页面的URL进行索引,因此可以基于URL来快速对其进行索引。找到相应的页面。 2、网页分析网页分析是整个页面处理过程中最重要的链接,包括以下链接:(4)关键字重组2. 3. 3页面排序用户向搜索引擎提交关键字查询完信息后,搜索引擎将在搜索结果页面上返回与该关键字相关的页面列表,这些页面根据与关键字的接近程度从上到下进行排列。
有许多因素决定页面的顺序,包括页面相关性,页面相关性,链接,链接权重,用户行为,权重和用户行为。 1、页面相关性页面相关性是指页面内容与用户查询的关键字之间的紧密程度,主要由以下因素决定:链接主要分为内部链接和外部链接,即网页生产或规划或编辑页面内容时,组织者已添加到页面。添加的原因可能是链接指向的页面非常重要或大多数用户都需要。 2. 3. 4关键字查询搜索引擎查询功能的实现非常复杂,并且用户返回结果所需的时间也非常长。在如此短的时间内完成如此复杂的计算是不现实的。因此,搜索引擎需要通过一套有效的机制来处理来自用户的查询。 ([1)首先对用户提供的查询条件进行细分,然后删除无意义的单词或查询条件中的单词,例如停用词(如的,得等);(2)然后将细分结果用作反向索引列表中关键字Match的条件;(3)如果有匹配结果,则将所有与关键字匹配的页面的URL合并到一个列表中;(4)最后,对匹配的页面进行排名根据权重值从高到低排序并返回给用户,用户在搜索引擎中的行为主要包括搜索和点击,搜索是用户获取信息的过程,点击是用户获取信息后的表现。为了在很短的时间内响应用户的查询请求,除了在用户提交查询信息之前生成相应页面排序列表的关键字外,搜索引擎还需要为该请求建立一个缓存机制。页面排序l ist与最常查询的关键字相对应。
2. 4常用搜索引擎简介Google Inc.成立于1998年9月4日,由拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)共同创立,被公认为是世界上最大的搜索引擎。 Google搜索引擎的主要搜索服务包括:网页,图片,音乐,视频,地图,新闻,问题和解答。 2. 4. 1 Google搜索引擎2. 4. 2百度百度于1999年底在美国硅谷成立,目前是世界上最佳的中文信息检索和传递技术供应商。百度为中国提供搜索引擎的所有门户网站中的80%以上提供搜索引擎技术支持。现有客户包括新浪,Chinaren,腾讯和26 3、 21cn。 2. 4. 3 Yahoo搜索引擎Yahoo世界上最早的分类目录,也是最大的门户网站网站。它的搜索结果最初来自Google,后来采用了Inktomi(被Yahoo收购)提供的结果。雅虎现在已经开发了自己的搜索技术,称为雅虎搜索技术(YST)。搜索结果的数量与Google相当。 2. 5本章小结本章介绍搜索引擎的历史,分类和原理。它概述了搜索引擎发展的演变过程,并介绍了当前行业中搜索引擎的主要类别:全文搜索和分类目录。简要介绍了搜索引擎的工作过程和原理。它着重于《星空黄页》 网站中搜索引擎技术的应用,并描述了搜索引擎的体系结构和功能特性。搜索引擎的出现在很大程度上改变了人们使用信息的习惯,并提高了信息使用的效率。它起源于互联网,但现在已经渗透到各个行业。了解搜索引擎,研究搜索引擎并应用搜索引擎。广阔的发展空间。