搜索引擎进行信息检索的优化策略方法(生物信息检索工具第一页,共65页信息检索技术发展概况(组图))
优采云 发布时间: 2021-11-02 19:00搜索引擎进行信息检索的优化策略方法(生物信息检索工具第一页,共65页信息检索技术发展概况(组图))
生物信息检索工具
65 页的第一页
信息检索技术发展概况
手工检索:手动提取信息,使用各种纸张的工具,用更少的检索入口,速度慢,效率低。
计算机检索:使用计算机检索信息,检索灵活,多条目,速度快,效率高。
光盘搜索
网络搜索
第 2 页,共 65 页
概述
搜索引擎系统与一定的策略在互联网上采集信息,组织和处理信息后提供搜索服务的用户。
从用户的角度来看,搜索引擎提供了一个收录搜索框的页面。在搜索框中输入词并通过浏览器提交给搜索引擎后,搜索引擎会返回一个与用户输入的内容相关的信息列表。
第 3 页,共 65 页
搜索引擎的工作原理
信息采集
信息整理
用户查询
第 4 页,共 65 页
搜索引擎的工作原理
1.采集信息:搜索引擎的信息采集基本上是自动的。搜索引擎使用称为机器人、蜘蛛和爬虫的自动搜索程序来连接每个网页上的超链接。机器人程序链接到基于网页的超链接,就像日常生活中所说的“一过十,十过一百……”,从几个网页开始,连接到其他网页的所有链接在数据库上。理论上,如果网页上有合适的超链接,机器人可以遍历大部分网页。
第 5 页,共 65 页
搜索引擎的工作原理
2. 组织信息:搜索引擎组织信息的过程称为“索引”。搜索引擎抓取到网页后,还需要做大量的预处理工作,才能提供检索服务。其中,最重要的是提取关键词,按照一定的规则排列和构建索引文件。其他包括删除重复的网页、分析超链接和计算网页的重要性。
第 6 页,共 65 页
搜索引擎的工作原理
3. 接受查询:用户向搜索引擎发送查询,搜索引擎从索引库中找到匹配的网页,并将信息返回给用户。目前,搜索引擎主要以网页链接的形式返回,用户可以通过网页链接访问收录他们需要的信息的网页。为方便用户判断,除提供页面标题和URL外,还会提供页面摘要等信息。
第 7 页,共 65 页
搜索引擎分类
(一)按其工作方式主要分为三种:
全文搜索引擎
目录索引搜索引擎(Search Index/Directory)
元搜索引擎
第 8 页,共 65 页
按工作方式分类
全文搜索引擎
使用搜索软件定期搜索网络资源,然后自动排序、索引,形成庞大的信息库,并不断更新。
用户访问这些网站,输入关键词或词组进行搜索,数据库将快速返回与这些关键词相关的网页地址的超链接信息给用户。它是真正意义上的搜索引擎。这种方式构建的数据库不需要人工干预,数据库庞大,召回率高,但准确率低。最具代表性的是国外的google、Fast/AllTheWeb、Lycos等,国内的百度。
第 9 页,共 65 页
按工作方式分类
目录索引搜索引擎
严格来说,目录索引搜索引擎并不是真正的搜索引擎,它只是一个按目录分类的网站链接列表,根据行业目录对收录进行分类并检索相关信息。
网站 分类目录是手动或*敏*感*词*组织和维护的。精选网络上优秀的网站,进行简述,归入不同的目录。用户查询时,可以通过逐层点击,找到自己要找的网站。准确率高,但数据库采集的页面有限。
与国外雅虎相比,国内新浪、搜狐、网易最具代表性。
第 10 页,共 65 页