搜索引擎优化宝典(基于概念格的搜索引擎查询优化系统信息工程学院)
优采云 发布时间: 2021-09-17 21:05搜索引擎优化宝典(基于概念格的搜索引擎查询优化系统信息工程学院)
基于概念格的搜索引擎查询优化系统,北京邮电大学信息工程学院,北京( 100876)Email:important:如今,搜索引擎已经成为互联网的入口,其相应的信息检索技术的研究和应用也越来越受到关注,更好地改善用户体验、提高检索效果已经成为第三代研究的重点搜索引擎。概念格是近年来迅速发展的一种强大的数据分析工具。从数据集生成概念格的过程本质上是一个概念聚类的过程。本文创造性地提出将概念格作为数学工具来构建搜索引擎查询优化系统ood概念聚类特性和可视化结构可以从用户的角度改善搜索引擎的用户体验,使搜索引擎更加智能。关键词:概念格、搜索引擎、查询优化、计算机技术的发展,特别是网络技术的发展,极大地促进了互联网互联网深刻地改变了人们的生活方式和思维方式,互联网已经成为不可或缺的信息来源。然而,互联网是一个高度开放、异构和分布式的信息空间。没有统一的管理,信息分散在世界各地的各个网站上,并且每天都在以非常快的速度更新。互联网非常混乱,给信息的使用带来了很大的困难
因此,以帮助用户找到感兴趣的信息为最终目的的个性化服务技术和信息检索技术吸引了众多学者的研究er查询结果的准确性要求越来越高,智能搜索引擎的研究已经成为Web数据挖掘领域的一项重要内容。为了解决搜索引擎中用户查询结果的许多问题,如信息查询不准确等,有必要引入一种结构形式来更好地表达用户提出了一种基于概念格的智能信息搜索引擎,并将其引入到智能信息检索系统的分析中,第三代搜索引擎力求提供更加便捷、智能的服务对于用户来说。由于目前有代表性的搜索引擎都是基于关键词查询的,但是该系统往往存在以下问题:大量同义词和多义词的存在导致搜索引擎的召回率较低。当用户提交查询以表达其信息需求时,他们通常只提交一个或多个查询与用户需求主题相关的术语。这样,由于提交查询时使用的词语不规范、不完整,与文档索引中使用的词语或短语差异很大,给准确的信息检索带来不便。针对关键词查询系统的上述缺点,人们提出一种查询优化方法,添加与原创查询相关的术语,形成新的查询信息描述
以往的查询优化方法主要有全局分析法和局部分析法,全局分析法的基本思想是分析所有文档中单词或短语的相关性,计算每对单词或短语之间的关联度,当新的查询到达时,具有高相关性的单词和短语根据预先计算的词与查询词的相关性,加入与查询词的est相关度,进入原创查询生成新的查询,该方法可以在建立词与词的关系字典后,最大限度地挖掘词与词之间的关系,高效地优化查询然而,当文档集非常大时,在时间和空间上建立一个全局词关系词典是不可行的,并且文档集更改后的更新成本是巨大的。将初始查询的前n篇文章文章进行局部分析的思想视为相关文章,并在此基础上对查询进行优化ethod是目前应用最广泛的一种方法,可以在一些实际的信息检索系统中使用,但是,当初始查询前的文档与原创查询不相关时,局部分析会在查询中添加大量无关词,这将严重降低查询成本,这是由于ethod的缺点关键词query系统针对以往查询优化方法的不足,提出了一种基于概念的查询优化方法,该方法基于概念,以用户需求为中心,最大限度地减少各种客观因素的负面影响,结合使用的主观调整,充分提高查全率和查准率卢比
我们建议使用表单概念分析作为更好的方案,它不仅认为形式概念分析是信息组织的一种模式结构,而且是获取用户查询优化过程的工具。形式概念分析优于一般的文档聚类算法:a)FCA提供了每个聚类文档集的描述,可用于查询更正和优化,使这些聚类增强了类文档表达查询概念的能力。B)FCA的聚类信息组织形式为晶格而不是层次结构。该方法可应用于更复杂的分类阳离子需求。同时,通过浏览这些概念格,我们可以改进查询并找到所需的相关信息。我们使用概念格更好地表达知识并对其进行优化,同时,用户的查询词被直观地显示到用户的优化路径上,真正实现了智能搜索通过这种相互作用,概念格与形式概念分析于1982年由德国wille教授提出,他对哲学概念进行了数学描述,实现了概念的形式化描述方法。概念格又称Galois格。概念格理论是形式概念的核心数据结构分析理论和用于知识发现和数据分析的强大数学工具。概念格本质上描述了对象(扩展)和特征(内涵),显示了概念的泛化和实例化之间的关系
概念格的每个节点都是一个形式概念,由两部分组成:外延,即概念所涵盖的实例;内涵,即概念的描述,涵盖实例的共同特征。概念格反映了这些概念之间的泛化和专业化关系通过相应的哈斯图,实现了数据的可视化。概念格的概念由其外部组成,确定了外延和内涵。外延由属于该概念的对象组成,内涵是该对象的公共属性的总和传统哲学中的概念为定义它提供了一个正式的基础。例如,表1是一个案例信息系统:体温较高的患者的咳嗽对象是患者a、B、C和D,属性是关于更高、更高和正常的体温以及咳嗽是否有五种症状属性。一个对象具有j-属性,其在表中的位置由“”表示。此关系确定的概念由一个有序对(a)、一个(扩展)是四个患者的子集和一个(内涵)组成是五个属性的子集。该概念由其外延和内涵决定,即B恰好是a中患者所有症状的性质,而a中的患者恰好具有B的所有症状。找到该概念的过程可以简单地描述如下:取一个对象,如B,因此B是fb,B={体温-高,咳嗽-无}是B中所有患者的集合,然后(a,B)是一个概念。通过抽象前面示例的本质,我们可以得到概念格的定义:definition2.1.1形式上下文是三元组,其中o是对象集,D是属性集,R是o和D之间的二元关系
通常,XRY表示(,意思是“对象x具有属性Y”。对于属性(或内涵)映射,G表示对象(或扩展)映射;它意味着子集a中的所有对象都有所有公共属性,它意味着子集B中所有属性中收录的所有公共对象。然后,每个满足称为形式概念,其中a称为C(EXT)的扩展每对概念描述一组对象及其共同特征。收录所有对象的概念称为完整概念,具有空扩展的概念称为空概念。所有概念的集合称为与形式背景相对应的概念格。定义在2.上1.2[11]子概念(节点),如果没有直接的子概念(节点)对于它们之间的另一个节点,Hasse图之间有一个直接的前导-后继关系。显然,这个二元关系是一个偏序关系。根据这个偏序关系,我们可以得到概念格的Hasse图,其中每个节点代表一个概念。Hasse图是一个可视化的表示概念格的泛化,生动地反映了概念之间的泛化和实例化关系