元搜索引擎技术优化Web检索在我国刑事司法和刑事执法领域

优采云 发布时间: 2021-06-29 04:30

  元搜索引擎技术优化Web检索在我国刑事司法和刑事执法领域

  元搜索引擎技术优化网络检索

  在我国的刑事司法和刑事执法领域,理论研究人员和从业人员对从 WWW 获取“*敏*感*词*相关信息”有特定的需求。和互联网上的普通用户一样,他们也面临着“大海捞针”的困境。 2004年6月,司法部以部级科研项目的形式向中央司法警察学院下达了一项专项任务,研究开发“*敏*感*词*信息综合分析系统”。以此为基础,为刑事司法、刑事执法领域的特定用户群体提供多种形式的信息服务。系统前端采用元搜索引擎,为用户提供友好的信息检索交互界面,为用户提供统一的访问服务,并采用文档聚类的方法对搜索引擎返回的结果进行快速分类,并进行访问用户通过用户行为反应动态调整聚类结果,提高检索有效性、检索准确率和召回率,帮助用户快速检索相关信息。本文作者曾参与课题研究,负责计算机技术工作。本文是对部分技术的介绍。

  元搜索引擎:

  “搜索引擎之母”

  目前,搜索引擎已经成为互联网研究的热点。元搜索引擎被称为“搜索引擎之上的搜索引擎”或“搜索引擎之母”。他们也在国外进行了广泛的研究,产生了ProFusion、SavvySearch和MetaSeek等知名元搜索引擎。

  为了提高搜索准确性,这些元搜索引擎 ProFusion、SavvySearch 和 MeatSEEK 并不总是将用户的查询请求发送到同一个搜索引擎。 ProFusion 综合考虑了检索性能、预测主题和用户表达的偏好。执行查询时,ProFusion 会单独下载网页并检查损坏的链接和重复的链接。 MetaSeek 会考虑过去的查询结果和用户关键词 的选择来源。 SavvySearch 允许用户通过指定目录来确定搜索范围。

  国内相关研究相对较少,尤其是涉及中文加工的,增加了研究难度。中国科学院和北京大学在这方面都取得了一定的成果。

  中文网页分类是搜索引擎研究的核心问题之一。网页自动分类方法包括自动分类和聚类。目前英语的分类算法有很多,如kNN、朴素贝叶斯、神经网络、支持向量机、系统聚类法、层次凝聚法等,但是中文网页有一些自己的特点,它们的分类方法有也构成了当前的研究热点。本文采用聚类方法对中文网页中搜索引擎的返回结果进行分析,并结合用户特征,给出统一的结果排序评价算法,并建立元搜索引擎模型。同时给出了详细的算法组成和实现过程。

  元搜索引擎的设计与实现

  *敏*感*词*信息综合分析系统完整的体系结构如下图所示,包括信息采集、处理和发布。系统前端为本文介绍的元搜索引擎。

  元搜索引擎实现检索的基本过程是:

  第一步,用户通过浏览器提交查询请求;第二步,元搜索引擎将查询请求归一化,形成标准化的查询请求向量Q=(q1,q2,...,qn);第三步,搜索每个引擎分发搜索请求;第四步,结合用户特征,对各个搜索引擎的返回结果进行过滤排序,体现用户个性,优化搜索;第五步,返回搜索结果并记录用户对结果的反馈信息,作为后续结果进一步整合的基础,同时作为动态分析用户特征的基础,为其他应用提供信息。

  查询结果聚类分析

  查询结果整合是元搜索引擎的一个关键问题,因为每个搜索引擎都有自己的搜索结果排序算法,这使得不同搜索引擎的搜索结果排序无法比拟,搜索结果与用户之间的相关性查询无法建立统一的度量标准,因此查询结果的整合成为搜索引擎研究的核心问题。目前,许多研究人员从不同的角度提出了自己的解决方案。本系统主要采用聚类分析和关联分析对查询结果进行整合。基本步骤是:

  (1)对各种搜索引擎的查询结果进行聚类分析,形成查询结果的自动分类;

  (2)分析各类与用户查询请求的相关性,以及各类与*敏*感*词*信息的相关性,并根据相关性确定排序顺序;

  (3) 将最相关类别中的结果返回给用户。

  聚类分析是计算机系统根据被调查对象的内部或外部特征,按照一定的要求将具有相似、相似或相同特征的对象聚集在一起的过程。自动聚类是揭示被调查对象的“分组”性质,根据对象的不同特征将其划分为不同的类,使同一类对象之间的差异尽可能小,同一类中的对象之间的差异尽可能小。对象之间的差异尽可能大。

  机器学习、模式识别等领域对聚类分析进行了很多研究,提出了很多聚类算法,如层次聚类、C-means聚类、层次聚类、密度聚类等。聚类方法、网格聚类方法等,其中K-means聚类方法因其计算效率高而被广泛使用。

  确定应该返回给用户的类别后,还需要进一步确定结果项在类别中的顺序。查询结果排序采用类似于类别排序的策略,通过计算每个结果项与查询请求的相似度以及与用户特征的相似度,并考虑结果项在元搜索引擎中的排序。

  假设元搜索引擎使用的搜索引擎数量为p,结果项r={t1,t2,...,tn}在第i个搜索引擎中排名为Rs(i,r) ,而搜索引擎的总查询结果项为Ni。另外,假设所有搜索引擎返回的结果项之和为S,则定义结果项r的相对顺序Rt为:

  对于给定的查询请求 Q=(q1,q2,...,qn) 和用户 u=(ut1,ut2,...,utm),通过以下公式确定其排名 Rank(r):

  这里θ是一个经验常数,它的作用是将结果项Rt(r)的排名位置值转化为一个与相似度一致的测度。目前的实验理想值为0.025。常数 ρ、σ 和 τ 是加权系数并且满足:

  这里ρ、σ、τ的取值与α、β相同,需要通过实验获得,理想值需要通过用户的稳定和完善才能获得用户使用期间的模式。

  实验结果

  *敏*感*词*信息综合分析系统是司法部专项任务项目,其中元搜索引擎技术的应用是系统的核心之一。我们对该算法的基本性能进行了实验测试,取得了令人满意的结果。在实验中,为了评估元搜索引擎本身的性能,我们没有使用正在开发的专用搜索引擎。我们使用了谷歌、搜狐、百度和新浪这四个搜索引擎作为基础搜索引擎。

  为了获得α、β、ρ、σ、τ的稳定值,我们进行了以下几类实验:

  (1)固定词词条查询请求,不同用户特征的词条数;

  (2)固定多条目查询请求,不同用户特征的条目数;

  (3)多个查询请求,固定数量的用户特征条目;

  (4)单一搜索引擎模式下的性能测试。

  通过实验,我们得到了α、β、ρ、σ、τ相对稳定的数值为0.8、0.2、0.5、0.2、 0.3。

  下表显示了使用上述系数时使用单个搜索词“homicide”的搜索结果。用户感兴趣的搜索结果是“关于故意杀人罪特征的讨论”。

  从表中可以看出,我们的元搜索引擎对于提高检索效率、缩短用户查找感兴趣信息的查询时间有显着效果。

  为了提高检索效率,帮助用户快速定位感兴趣的信息,我们利用元搜索引擎技术针对特定的*敏*感*词*信息领域和特定的用户群体优化网络检索服务,并在两个方面取得了丰硕的成果 研究:(1)采用注册用户管理机制,静态和动态采集用户特征,建立用户访问模式,在用户检索*敏*感*词*和用户​​历史过程中关注用户信息需求、兴趣和动态检索 采集和调整用户特征,利用用户特征优化检索;(2)采用动态聚类的方法对各个搜索引擎的返回结果进行快速分类,提出分层结果排序算法,帮助用户快速检索相关信息。实验结果它还显示了元搜索引擎作为前端的有效性*敏*感*词*信息综合分析系统,满足系统性能要求。

  系统中需要进一步研究的问题有:(1)对于*敏*感*词*领域的具体内容,系统中会形成*敏*感*词*词典,其使用会影响性能的优化元搜索引擎的;(2)在USER用在元搜索引擎的过程中,用户日志分析对提高系统性能的影响;(3)权重系数α、β、ρ、σ的值, τ 在算法中还有待大量用户测试。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线