搜索引擎进行信息检索的优化策略方法(Web信息搜索集中网站爬山算法相似度(Searchengine))

优采云 发布时间: 2021-12-19 13:19

  搜索引擎进行信息检索的优化策略方法(Web信息搜索集中网站爬山算法相似度(Searchengine))

  【摘要】提高Web信息搜索效率和搜索性能是信息检索领域的一个重要研究课题。本文采用爬山算法获取特定类别的最小集中网站集合,然后通过网页聚类,找到能够获得最完整、最准确信息的网页序列,从而提高网络搜索的速度和准确性。

  [关键词]网络信息搜索中心网站爬山算法聚类相似度

  搜索引擎是目前网络信息检索的主要工具。它提供的导航服务已经成为互联网上非常重要的网络服务,但它也有比较大的查询速度、准确率、召回率。局限性。研究发现,网站集合的一部分网站已经收录了几乎所有的网页信息。这样一个最小覆盖网站的子集称为集中网站[1],因此,找到这样一个集中的网站可以提高搜索引擎的搜索效率。此外,分析网页之间的超链接结构并充分利用它可以提高检索质量。基于这种超链接分析的思想,1998年,Serger Brin和Lawrence Page提出了PageRank[2]算法。同年,J.

  由于最小浓度网站是针对特定类别的,下面的工作是基于已经获得特定类别网站集合的假设。

  求集中度网站的问题可以看成是求图的最小顶点覆盖的问题。已被证明是一个NP完全问题。考虑使用启发式搜索算法——爬山算法来寻找集中度网站。

  爬山算法是一种基于邻域搜索技术的搜索方法,沿可能提高解质量的方向进行单向搜索(爬山)。它在解空间中进行逐步搜索,扩展当前节点并评估其子节点,选择最优子节点并进一步扩展。使用爬山算法求浓度网站,首先选择所有网站中收录网页最多的网站,放入浓度网站,然后把网站收录的网页在其他网站网页集合中删除,然后在剩余的网站集合中重复上述操作,直到集合网站中收录的网页差不多覆盖所有到页面。

  接下来需要对网站的最小集合中收录的网页进行预检索聚类,综合考虑利用网页之间的内容和链接结构的相似性对网页进行聚类。

  网页内容的相似度可以用文本相似度来表示。文本以词为单位描述为一组元组,主要是二字词,主要是单字词,与助词、感叹词等语义信息无关。省略,这样就可以通过比较网页中的词频和词频来表达网页的内容相似度。

  下面应用HITS算法和相应的改进算法计算任意两个网页之间的力,进而得到力的相似度,即链接相似度。

  如果网页p和q上的p和q之间存在直接(或间接)直接(或间接)方向,则称p和q之间存在相互作用力,p对q的作用力为FA (p),q对p的反作用力为FH(q);如果网页p和q中没有直接(或间接)指向q,则说p和q之间没有相互作用力,或者相互作用力为0。

  在,

  FA(p)=KHHub(p),Hub(p)为HITS算法计算得到的p的Hub值向量;

  FH(q)=KAAuthority(q),Authority(q)为HITS算法计算得到的q的权限值向量;

  KH 和KA 是衰减系数。p直接指向q时,KH=1,KA=1;当p不直接指向q时,KA和KH随着两者之间最短路径长度KH、KA的增加而减小

  假设总共有m个网页,每个网页都会受到其他m-1个网页对其施加的力,每个力分为FA和FH两部分。

  假设网页 p 和 q 上的力是 FA 和 FH。根据欧氏距离公式,可以得到FA和FH的相似度为:

  SFA (p, q)=1-

  SFH (p, q) = 1-

  其中,SFA和SFH。

  假设网页组Slink中任意两个网页p和q之间的链接相似度包括三部分:Sd、SFA和SFH,即

  Slink=Wd×Sd(p,q)+Wa×SFA(p,q)+Wh×SFH(p,q)

  其中,Wd、Wa、Wh为各自的权重,Wd+Wa+Wh=1。

  Sd(p,q)是网页p和q之间距离的特征,随着两者距离的减小而增大。

  SFA (p, q) 是网页 p 和 q 的力 FA 的相似度。

  SFH (p, q) 是页面 p 和 q 上的力 FH 的相似度。

  Sd、SFA、SFH。

  通过基于内容和超链接结构的网页之间的相似度,我们可以将两者结合起来得到网页之间的混合相似度:

  假设两个网页的混合相似度表示为:

  S=Wl×Slink+Wt×Sterm 其中,Wl和Wt分别为各自的权重,Wl+Wt=1,S。

  常用的聚类算法包括层次聚类、平面划分(k-means算法)、简单贝叶斯聚类、K-最近邻参考聚类、层次聚类、基于概念的文本聚类等。

  通过上述网页聚类,得到了某类最小集合网站中收录的网页类别。网页的权威值可以作为衡量其重要性的指标。同时,在聚类过程中,还使用了网页p对类Ci的隶属度M(Ci,p),表示网页p与该类信息的相关性,因此也可以反映网页在其类别中的重要性。程度。它的定义如下:

  假设类Ci中任一网页p对类Ci的隶属度为M(Ci,p),p的Authority值为Authority(p),则网页p在类Ci中的重要性为:

  重要性(p)=M(Ci,p) 权威(p)

  在每个类别中,选择Importance值一、最大的两个网页,使得查询结果中只出现具有代表性的内容,从而提高查询效率。

  本文提出的对收录在最小集合网站中的网页进行聚类,并选择每个类别中的重要网页进行网页搜索优化的方法具有以下优点:(1)通过搜索最小集中度网站,可以减少搜索面,提高搜索效率;(2)利用内容的相似性和超链接结构进行网页聚类,可以获得更好的聚类效果。

  参考:

  [1] 赵云,刘伟一.一种基于遗传算法的浓度寻找方法网站。云南大学学报, 2003, 25 (6).

  [2]陈小平,徐卓明.一种基于超链接结构的WWW模糊聚类算法[J]. 常州工业大学学报, 2002, 8 (2): 47-52.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线