搜索引擎进行信息检索的优化策略方法(1.查找引单的前史一切查找引擎的作业方法是什么)

优采云 发布时间: 2021-12-31 01:13

  搜索引擎进行信息检索的优化策略方法(1.查找引单的前史一切查找引擎的作业方法是什么)

  类型:网站Wiki|时间:2014-06-16 搜索引擎是指按照一定的策略,使用特定的计算机程序,对互联网上的信息进行采集,信息被显示后显示整理和处理 为用户提供搜索服务的系统。搜索引擎现在已经成为人们上网必备的东西之一。

  简而言之,搜索引擎的工作方式就是爬取网站来制作页面,处理网页,提供检索服务。每个独立的搜索引擎都有自己的网络爬虫程序(Spider),蜘蛛跟随网页。一个接一个地抓取网页的超链接。抓取到的网页称为网页快照。因为超链接在互联网上的使用非常广泛,理论上来说,可以从某个规划好的网页开始采集大部分网页。搜索引擎抓取到网页后,还需要做大量的预处理工作才能提供搜索服务。同时,最重要的是提取关键词(Keywords),建立索引文件。其他包括删除重复的网页、分析超链接和计算网页的重要性。当用户输入关键词进行搜索时,搜索引擎会从索引库中找到与关键词匹配的网页。为便于用户识别,除提供网页标题和网址(URL)外,还会提供网页摘要等信息。

  1.查找引用历史

  所有搜索引擎的始祖是 Archie,它是由加拿大麦吉尔大学的学生 Alan Emtage、Peter Deutsch 和 Bill Wheelan 在 1990 年创建的。虽然当时www并没有被广泛使用,但是网络中的文件传输还是比较合适和频繁的,而且由于很多文件分布在各个分散的FTP主机上,查询起来非常不方便。Alan Emtage 等人想开发一个通过文件名搜索文件的系统,所以有了 Archie,Archie 就是一个可搜索的 FTP 文件名列表。用户必须输入准确的文件名进行搜索,然后 Archie 会告诉用户哪个 FTP 地址可以下载文件。因此,Archie 是第一个主动索引互联网上匿名 FTP网站 文件的程序,但它还不是真正的搜索引擎。因为阿奇太受欢迎了,

  启示是美国内华达大学的研究人员于1993年开发了Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。J ughead是后来的另一个Gopher搜索工具。

  搜索引擎一般由三部分组成:爬虫(Robot/Spider)、索引*敏*感*词*和查询检索器。专门用于检索信息的“机器人”程序像蜘蛛一样在网络上爬行,因此搜索引擎的“机器人”程序被称为“蜘蛛”程序。

  世界上第一个蜘蛛程序是由麻省理工学院的马修格雷为了跟踪互联网的发展计划而开发的World Wide WebWanderer。起初只是用来统计互联网上的服务器数量,后来发展起来也用来抓取网址。

  1994 年 7 月,美国卡内基梅隆大学的 Michael Mauldin 将 John Leavitt 的蜘蛛程序纳入他的索引程序,并创建了 Lycos。同年4月,美国斯坦福大学博士生David Filo和美籍华裔杨致远创立了超级目录索引雅虎,成功让搜索引擎的概念流行起来。从此,搜索引擎进入了高速发展时期。现在,互联网上有数百个名称的搜索引擎,检索到的信息量与早年不一样。以谷歌为例,其数据库中托管的网页数量已达30亿!

  2.几个搜索指南的介绍

  下面简单介绍几种常用的搜索引擎。

  (1)谷歌

  Google 搜索引擎界面如图6-18 所示。Google 最初是斯坦福大学的一个小项目 BackRub。1995 年,博士生 Larry Page 开始学习搜索引擎规划并注册了 T google。.com 域名于 1997 年 9 月 15 日发布。1997 年底,在 Sergey Brin、Scott Hassan 和 Alan Steremberg 的参与下,BachRub 开始提供 Google 的演示版。1999 年 2 月,Google 完成了 T 从 Alpha 版到 Beta 版的转换。

  

  谷歌在Page rank、动态摘要、网页快照、每日刷新、多文档布局支持、地图库存词典搜索、多语言支持、用户界面等功能上的转变,长期以来改变了搜索引擎的定义. 2006年新版《韦氏大学词典》收录了100多个新词。在这本以保存严密着称的词典中,输入了互联网搜索引擎谷歌,意思是“在互联网上快速查找信息”。

  (2)百度

  现在,百度()是全球最大的中文搜索引擎,其界面如图6-19所示。2000年1月,前Infoseek高级工程师李彦宏和老朋友徐勇(加州大学伯克利分校博士后)在深圳中关村创立百度。2000年5月,百度开始为门户网站网站(如搜狐、新浪等)提供搜索技巧服务,随后发布搜索引擎Beta版,开始独立提供搜索服务。

  

  (3) Alltheweb

  Alltheweb诞生于1999年5月,是一款优秀的全文搜索引擎。除了查找常规网页外,它还可以查找新闻、图片、视频、音频等内容。它的政策是成为世界上最大和最快的搜索引擎。界面如图6-20所示。

  

  (4) 问.com

  

  问。Com 是一个通过提问进行搜索的搜索引擎。用户可以输入问题并找到他们想要的答案。界面如图6-21所示。

  3.查找引用类别

  搜索引擎通常分为三类:全文索引引擎、目录索引和元搜索引擎。

  (1)全文搜索引擎

  全文搜索引擎是当之无愧的搜索引擎。国外的代表是谷歌,国内的代表是百度。他们从网上提取每个网站的信息(主要是网页文本),建立数据库,可以检索出符合用户查询条件的记录,并按照一定的顺序返回结果。

  根据搜索结果来源的不同,全文搜索引擎可以分为两大类。一类有自己的搜索程序,即“蜘蛛”程序或“机器人”程序。可自建网络数据库,可直接从自建数据库中获取搜索结果。打电话,上面提到的谷歌和百度都属于这一类;另一种是租用其他搜索引擎的数据库,将搜索结果按照自定义格式排列,比如Lycos搜索引擎。

  (2)目录索引

  正如文字所言,目录索引是将网站存放在对应的目录(Directory)中。因此,用户在查询信息时,可以选择关键词进行搜索,或者分类搜索。如果Search by 关键词,返回的结果和全文搜索引擎一样,按照信息相关程度(人为因素较多)放在网站。

  如果在分层目录中搜索,网站在某个目录中的排名是由标题字母的顺序决定的(也有例外)。

  与全文搜索引擎相比,目录索引有很多不同之处。

  首先全文搜索引擎属于主动网站搜索,目录索引的建立完全依赖技术操作。用户提交网站后,目录修改人员会亲自阅读用户的网站,然后根据一套自行确定的标准决定是否接受用户的网站甚至修改员工的片面形象。其次,当搜索引擎输入网站时,只要网站不违反相关规则,一般登录成功。但是目录索引对网站的要求要高很多,有时候即使重复登录也不一定能成功。另外,在登录搜索引擎时,人们一般不必考虑网站的分类,登录目录索引时需要将网站放在最合适的目录中。最终从用户的网页中主动提取全文搜索引擎中每个网站的相关信息,让用户拥有更多的自主权;而目录索引需要必要的技巧来填写网站信息,还有各种限制。更重要的是,如果运营商认为用户提交的网站目录和网站信息不合适。他可以随时调整,当然他不会提前和用户协商。现在,搜索引擎和目录索引有相互融合和渗透的趋势。原本一些简单的全文搜索引擎现在也提供目录搜索。例如,Google 借用 Open Directory 目录来提供分类搜索。旧的目录索引,如 Yahoo! 通过与谷歌等搜索引擎的合作,扩大了搜索计划。

  (3)元搜索引擎

  元搜索引擎接收到用户的查询请求后,一起在多个搜索引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括 InfoSpace、Dogpile、Vivisim。等,*敏*感*词*搜索引擎的典型代表就是搜星搜索引擎。在搜索结果的放置方面,有的直接按照来源放置搜索结果,比如Dogpile,也有的按照自己的规则重新放置结果,比如Vivisimo。现在搜索引擎正处于高速发展阶段。大型搜索引擎基于分布式记账。

  简而言之,分布式系统是由多个服务器协同工作组成的系统,然后可以检索海量信息。以谷歌为例。它由数万台服务器组成,提供更好的检查和抗压能力。抗压是指服务器在几秒钟内处理许多并发请求的能力。

  目前,搜索引擎技能的首要发展空间在于搜索的准确性。除了传统的网页排名算法(指对搜索结果进行排名的规则),如Page rank、Hill top等,它们也与自然语言研究的进展密切相关。

  出处声明:本文章经成长超人原创修改或编辑打包。如需转载请注明出自成长超人。以上内容(含图文)来自网络。如有侵权,请及时联系本站(0755-82326831)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线