搜索引擎进行信息检索的优化策略方法(搜索引擎研发支持技术,也不能无自建)
优采云 发布时间: 2021-11-14 12:23搜索引擎进行信息检索的优化策略方法(搜索引擎研发支持技术,也不能无自建)
搜索引擎概述:1.1 搜索引擎的概念:
搜索引擎是指利用特定的计算机程序,按照一定的策略,采集互联网上的信息,对信息进行组织和处理,并将处理后的信息展示给用户,提供检索服务的系统。
1.2 搜索引擎原理:
它可以分为四个步骤:
从网上抓取网页,建立索引库,在索引库中进行搜索和排序,对搜索结果进行处理和排序1.3 搜索引擎的发展阶段:
到目前为止,搜索引擎经历了三个发展阶段:
第一代搜索引擎出现在1994年,主要特点是集中检索。这类搜索引擎一般检索不到100万个网页,很少重新搜索网页和刷新索引,检索速度非常慢。第二代搜索引擎出现在1996年,大多采用分布式检索方案,即多台微机协同工作,以增加数据规模、响应速度和用户数。他们一般维护一个约 5000 万个网页的索引数据库,每天响应 1000 万个用户索引请求。第三代搜索引擎出现在1998-2000年。 第三代搜索引擎的特点:1.4 搜索引擎的发展趋势:
搜索引擎的发展趋势主要包括以下几个方面:
自然语言检索技术目录与关键词检索相结合 智能个性化检索技术 多媒体检索技术 本地化检索技术 跨语言检索技术 分布式检索技术 检索结果处理技术1.4. 1 搜索引擎进行搜索结果技术: 纯搜索引擎:没有自己采集系统的信息,利用别人已有的索引数据库,主要关注搜索的概念、技术和机制;元搜索引擎:提交用户搜索请求发送到多个独立的搜索引擎进行搜索,搜索结果统一处理,以统一格式提供给用户。因此,它被称为搜索引擎之上的搜索引擎。它主要侧重于提高搜索速度和智能处理。搜索结果、个性化的搜索功能设置和搜索界面的人性化,召回率和准确率都比较高。集成搜索引擎:又称“多引擎同步检索系统”,将一个WWW页面上的几种类型链接起来独立的搜索引擎,搜索时需要点击或指定搜索引擎,一个搜索输入,多个引擎同时搜索时间,用起来很方便
多引擎同步检索系统没有自建数据库,不需要研发支撑技术,无法控制和优化检索结果。但多引擎同步检索系统的制作和维护技术简单,链接的搜索引擎可以随时添加、删除、调整和更新。
垂直搜索引擎:相对通用的搜索引擎,存在信息量大、查询不准确、深度不够等问题。针对某一领域、某一人群、某一需求提出的新型搜索引擎服务模式。相关服务
1.5 搜索引擎分类:
1.全文搜索引擎:是名副其实的搜索引擎,具有代表性的搜索引擎有谷歌、百度等。原理就是上面提到的搜索引擎的原理。
2.目录索引搜索引擎:它不是真正意义上的搜索引擎,它只是一个按类别分类的网站链接列表,用户可以完全不需要查询关键词 ,仅靠分类目录也能找到你需要的信息,代表:雅虎、新浪、搜狐、网易
3.元搜索引擎:同上
1. 非主流形式:
2.功能:
4.分布式搜索引擎:按照地域、主题或其他标准创建分布式索引服务器,索引之间可以交换中间信息,查询可以重定向
1.搜索引擎六大关键技术
1.信息采集与存储技术
2.信息预处理技术
3.信息检索技术
摘自:《搜索引擎基础教程》,袁晋生、李群主编