优化搜索引擎的索引结构,使之适合结构化数据查询,

优采云 发布时间: 2021-05-23 23:20

  优化搜索引擎的索引结构,使之适合结构化数据查询,

  [摘要]:随着信息技术的发展,搜索引擎的应用已渗透到各个领域,并已成为人们获取信息的最常用有效手段之一。当前,市场上较流行的搜索引擎(例如Google,百度等)是用于公共领域的通用搜索引擎,并且检索到的信息基本上是诸如网页,博客和文档之类的非结构化信息。对于一般企业来说,信息的结构是结构化的数据,存储在信息系统中,例如数据仓库,ERP,OA等。随着信息技术水平的不断提高,企业也积累了大量的数据。充分利用这些信息为公司决策提供支持也是公司面临的痛点。针对这个广阔的市场,我们结合了搜索引擎和数据仓库的两个理论特征,使用数据仓库的标准化数据模型,并结合了搜索引擎的特点,设计并实现了基于数据仓库的搜索引擎系统。该系统允许用户使用自然语言进行查询,为企业提供一种新的信息检索和信息显示形式,减少了IT系统的技术壁垒,并促进了信息共享和深度挖掘。本文的主要工作和研究成果包括:1.针对结构化数据存储,结合数据仓库的多维模型,提出了语义层的抽象封装方法,并对数据存储结构进行了标准化; 2.优化了搜索引擎的索引结构,使其适合结构化数据查询,并实现了基于正则表达式的关键词识别,提高了分词的准确性; 3.采用中文分词技术,并集成了IKAnalyzer开源控件来实现查询分析,从而使用户可以使用自然语言作为查询条目。允许用户直接输入商务短语进行查询,结合编译技术原理,实现自然语言分割中的表达分析,有条件地过滤结构化数据,自动生成查询SQL语句; 4.结构化数据的搜索特性,优化搜索结果的显示方式,为用户提供更加便捷的搜索界面。数据仓库搜索引擎系统已在上海烟草集团数据中心信息服务中得到实际应用,并取得了预期的应用效果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线