搜索引擎进行信息检索的优化策略方法(北京大学博士*敏*感*词*学位论文题目:与效果评估(图))
优采云 发布时间: 2022-02-15 22:24搜索引擎进行信息检索的优化策略方法(北京大学博士*敏*感*词*学位论文题目:与效果评估(图))
随意转录、拍照或以任何方式传播。否则可能造成妨碍作者版权的问题,并可能承担法律责任。
i 摘要 本文的研究工作是国家重点基础研究发展规划项目“网络环境下海量信息组织与处理的理论与方法研究”的一部分;以系统研究检索系统的效率和效果评价为目标,提出了几项关键技术。在大量实验和真实数据分析的基础上,得到以下研究成果和结论: 1)提出了一种混合索引技术。该技术针对中文信息检索索引选词问题,结合了中文自动分词和未注册词识别技术,选择基本分词结果和识别生成的扩展词典上的分词结果作为索引词。通过在实际系统中的应用实践表明,该技术能够有效提高词组检索效率。2)提出了一种倒排文件分区方法,考虑了文档编号序列和文档权重序列在检索系统性能中的不同作用,为全面优化系统性能提供了操作框架。与现有的相关工作相比,本研究基于搜索引擎的应用背景和搜索引擎系统的实际数据,建立了检索性能模型,然后在该模型的基础上研究了区块组织策略对性能和区块参数的影响。的偏好。研究结果表明,这种块组织策略可以有效提高检索效率。3)倒排文件缓存是优化检索系统效率的重要技术。结合*敏*感*词*检索过程中磁盘I/O和操作系统分页的特点,研究了缓存上倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织。表现。问题。研究结果表明,这种块组织策略可以有效提高检索效率。3)倒排文件缓存是优化检索系统效率的重要技术。结合*敏*感*词*检索过程中磁盘I/O和操作系统分页的特点,研究了缓存上倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织。表现。问题。研究结果表明,这种块组织策略可以有效提高检索效率。3)倒排文件缓存是优化检索系统效率的重要技术。结合*敏*感*词*检索过程中磁盘I/O和操作系统分页的特点,研究了缓存上倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织。表现。问题。页面大小和倒排文件组织在倒排文件缓存的优化设计中对缓存性能的影响。问题。页面大小和倒排文件组织在倒排文件缓存的优化设计中对缓存性能的影响。问题。
研究结果为倒排文件缓存的优化设计提供了指导。4)针对搜索引擎检索系统效果评价中的几个问题,设计并实现了一个搜索引擎检索系统检索效果评价的实验环境。基于搜索引擎的用户查询日志,按查询类别构建用户查询集合。不同搜索引擎采集系统采集的网页集合之间的差异、审稿人结果的差异、评价实验的稳定性、连续性的相关性得分及相应的评价指标、查询集的大小为评价实验的稳定性等问题研究,研究结果对有效的检索和评价实验具有重要的指导意义。ii 5)基于对搜索引擎用户点击日志数据的分析,提出一种自动构建评价实验相关结果集并进行自动评价实验的方法。实验表明,这种自动方法得到的结果与人工评价的实验结果是一致的,并且对于不同的查询集保持稳定。这种方法提供了一种有效的方法来解决*敏*感*词*数据集上检索系统评估的可扩展性问题。关键词关键词:万维网、搜索引擎、信息检索、检索效率、性能、评估iii 摘要搜索引擎现在是信息社会的基础设施。本论文研究了搜索引擎*敏*感*词*检索系统的性能;特别关注效率优化和有效性评估。主要贡献包括: 1. 提出了一种混合索引项选择方法。