搜索引擎进行信息检索的优化策略方法(Web搜索引擎应用背景,提高短语检索效率和效果评估效率)
优采云 发布时间: 2021-11-10 16:18搜索引擎进行信息检索的优化策略方法(Web搜索引擎应用背景,提高短语检索效率和效果评估效率)
任何单位和个人储存、保管本论文的各种版本,未经本论文作者同意,不得将本论文出借给他人,也不得以任何方式随意复制、抄录、拍照、传播。否则,可能会因妨碍作者版权的问题而引起法律责任。
概括
本论文的研究工作是国家重点基础研究发展项目“网络环境下海量信息组织与处理的理论与方法研究”的一部分;针对Web搜索引擎应用的背景,目标是构建*敏*感*词*、高性能的搜索引擎检索系统,系统研究了检索系统的效率问题和效果评价问题,并提出了多项关键技术。通过大量实验和真实数据分析,得出以下研究结果和结论:
1)提出了一种混合索引技术。该技术针对中文信息检索的索引词选取问题,将中文自动分词和未注册词识别技术相结合,将基本分词结果和识别生成的扩展词典上的分词结果都选择为索引。字。在实际系统中的应用实践表明,该技术能够有效提高词组检索效率。
2)提出了一种倒排文件分区组织方法,该方法兼顾了文档编号序列和文档权重序列在检索系统性能中的不同作用,为全面优化系统性能提供了一个可操作的框架。与现有相关工作相比,本研究基于搜索引擎的应用背景,基于搜索引擎系统的实际数据,建立了检索性能模型。基于该模型,研究了块组织策略对性能和块参数的影响。首选。研究结果表明,这种块组织策略可以有效提高检索效率。
3)反向文件缓存是优化检索系统效率的一项重要技术。结合*敏*感*词*检索过程中磁盘I/O和操作系统分页的特点,研究了倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织方式对缓存性能的影响。 . 问题。研究结果为倒排文件缓存的优化设计提供了指导。
4)针对搜索引擎检索系统效果评价中存在的几个问题,设计并实现了一个用于评价搜索引擎检索系统检索效果的实验环境。基于搜索引擎的用户查询日志,根据查询类别构建用户查询集合。不同搜索引擎采集系统采集的网页采集的差异,评价者结果的差异,影响评价实验的稳定性,相关性得分和相应评价指标的连续性,查询集合的大小对稳定性的影响评价实验等。对该问题进行了研究,结果对有效检索评价实验具有重要的指导意义。
5)基于对搜索引擎用户点击日志数据的分析,提出了一种自动构建评价实验相关结果集并进行自动评价实验的方法。实验表明,该自动方法得到的结果与人工评估实验的结果一致,对于不同的查询集均稳定。该方法为解决*敏*感*词*数据集上检索系统评估的可扩展性问题提供了一种有效的方法。
关键词:万维网、搜索引擎、信息检索、检索效率、性能、评价
抽象的
搜索引擎现在是信息社会的基础设施。本论文研究了*敏*感*词*搜索引擎检索系统的性能;尤其注重效率优化和效果评估。主要贡献包括:
1. 提出了一种混合索引项选择方法。通过融合中文自动分词技术和未知词检测技术,我们在基本词典上选择了两种分词结果