搜索引擎主题模型优化(借鉴Web个性化推荐服务的思路以改善以搜索引擎为代表)

优采云发布时间: 2021-09-19 10:14

　　摘要：随着海量网络信息的爆炸式增长，通用搜索引擎面临着索引规模、更新速度、个性化需求等诸多挑战。面对这些挑战，产生了适应特定主题和个性化搜索的主题爬虫应用程序。本文介绍了基于主题爬虫的个性化搜索引擎的体系结构、搜索策略和相关性。详细介绍了基于链路结构的搜索算法和改进策略

　　关键词：个性化；搜索引擎；主题爬虫；PageRank

　　CLC编号：tp393文件识别码：a文章编号：1009-3044（2009)31-9028-02

　　随着互联网技术的飞速发展，网络信息资源呈现爆炸式增长趋势，搜索引擎在一定程度上满足了用户的需求，但*敏*感*词*许多调查结果表明[1]此外，信息的多样性、可靠性和动态性对于普通用户来说非常重要，“信息丢失”和“资源过载”的问题越来越严重

　　可以说，上述情况缺乏在短期内取得突破的技术可能性，因此有效的解决方案是如何在现有网络信息资源利用现状的基础上进行有效的技术改进，学习Web个性化推荐的理念是一种有益的选择以搜索引擎为代表的Web信息检索系统服务模式的改进

　　1基本概念

　　1.1个性化搜索引擎

　　基于个性化推荐服务的搜索引擎属于个性化搜索引擎的概念[2]个性化搜索引擎不仅是指界面的个性化，更是指内容的个性化，界面个性化是指为用户提供定制搜索引擎界面风格和布局的能力，并根据没有用户的情况提供其预定制的界面；内容个性化是为用户提供定制搜索结果的能力，没有信息检索需求的用户使用相同的搜索引擎搜索关键词也会得到不同的点击结果。显然，这里强调的是内容的个性化，这比搜索引擎的个性化具有更大的实际意义电子接口

　　南京大学研究的Doltri agent[3]，该系统将主题技术应用于网络信息搜索，其主要特点是具有学习功能，可以在信息交互中获取用户信息，包括用户兴趣、爱好和思维方式

　　1.2网络爬虫

　　网络爬虫，也称为蜘蛛。网络爬虫[2]是一个自动提取网页的程序，是搜索引擎的重要组成部分。网络爬虫从网站a页面（通常是主页）查找网页首先通过网页的链接地址，读取网页的内容，在网页中找到其他链接地址，然后通过这些链接地址找到下一个网页。这个循环一直持续到捕获所有网站网页。如果互联网被视为网站，蜘蛛可以捕获互联网上的所有网页运用这一原则

　　它在搜索引擎中扮演着重要的角色。它影响着搜索引擎的完整性和准确性，并决定着搜索引擎数据容量的大小。此外，网络爬虫的质量直接影响着搜索结果页面中死链接的数量（即指向的网页不存在）

　　2.基于主题爬虫的个性化搜索引擎

　　2.1个性化信息采集主题爬虫模型

　　主题爬虫是在普通爬虫的基础上，通过在网页处理的全过程中增加模块来实现个性化信息提取，这些模块包括主题确定模块、优化初始*敏*感*词*模块、主题相关性分析模块和排序模块，图1为个性化信息采集model b基于主题爬虫[3]

　　1)爬虫模块检索网页；2)调用相关性分析模块分析网页的相关性；3)爬虫模块根据不同的分析结果进行相应的处理；4)爬虫模块从数据库中取出等待处理的URL，并继续执行工作，循环到第一步，直到没有新的URL；5)排序网页的重要性

　　2.2基于Web图的超链接结构搜索策略

　　基于链接结构的搜索策略的主要特点是利用网页结构信息来指导搜索，通过分析网页之间的关系来确定网页和链接的重要性和价值。超链接分析技术是主题搜索引擎使用的重要手段下面将介绍nk分析算法

　　2.2.1PageRank算法

　　PageRank算法[3]由斯坦福大学的Sergey Brin和Lawrence page于1998年提出，其基本思想是[4]：如果一个页面被许多其他页面引用，它很可能是一个重要页面；如果一个页面被一个重要页面引用，尽管它没有被多次引用，但它很可能是一个重要页面；页面的重要性被平均划分并传递给它引用的页面。量化pag重要性后的分数e是PageRank值。著名的搜索引擎Google使用PageRank算法

　　网络中的超链接结构可以表示为有向图G=（V，e），其中V是节点集（网页），e是边集（当且仅当存在从页面I到页面J的链接时，存在从节点I到节点J的边）.假设一个页面u有一个链接的网页，其T1、T2…TN；参数d表示“随机浏览者”沿链接访问网页的衰减因子，取值范围为（0，1)根据经验值一般取0.85。C（TI）表示从网页Ti链到其他网页的链接数，PR（U）定义为网页U的链接权重。PageRank值的计算公式如下（1)）：

　　（1)

　　其中e为1/max，即max是所有网页的总和，分配给每个网页的初始权重是总和的倒数。该算法的特点是指向网页的外部链接页面的页面级别越高，从链接页面传递到网页的页面级别值越高。因此因此，即使网页在内容中意外地提到了偏离查询主题的关键词语言，它也会因为其较高的页面级别值而获得较高的排名，这会影响搜索结果的相关性和准确性

　　2.2.2HITS算法

　　HITS算法[4]由康奈尔大学的J.Kleinberg提出。Kleinberg将网页分为两类，即中心和权限。HITS算法的目标是通过某种计算方法，为检索问题获取最有价值的网页，即最高级别的权限

　　但是，该算法的计算量大于PageRank，依赖于用户查询，实时性差，而且权威和中心算法可能存在“话题漂移”和“话题泛化”现象因此，Authority and hubs算法适用于主题广泛的查询

　　2.2.3PageRank算法的改进

　　接下来，通过引入面向主题的思想和重新计算网页链接关系，我们对PageRank算法进行了两项改进

　　首先，PageRank在发现页面重要性方面起着重要作用，但它并不面向某个主题（查询独立性）这里对PageRank方法进行了改进：基于链接关系，添加一定的语义信息权重，生成主题的重要页面，形成spagerank算法，spagerank算法不仅利用了PageRank在发现重要页面方面的优势，还利用了主题相关性.在PageRank算法中引入相关分析，得到改进的算法公式（2)）

　　（2)

　　其次，我们仅以hub为例来说明E的改进。这种计算网页hub值的新算法描述如下：

　　将n定义为网页的总数

　　将so定义为所有页面的总输出

　　定义oi为第一页的输出度

　　向量E的计算公式为：EI=oi*n/so。将该向量E代入改进的面向主题的spagerank公式，得到页面U的权重公式（3):

　　（3)

　　这不仅可以实现面向主题的搜索，而且可以提高系统的响应时间

　　2.3主题相关算法

　　搜索引擎的根源是传统的全文检索技术，搜索引擎遵循传统的信息检索模型。在传统的计算文档相似度的算法中[5]，使用Salton教授提出的向量空间模型。向量空间模型基于一个关键假设，即构成文章的条目的顺序是无关的，它们对文章主题的影响是相互独立的。因此，该文档可以被视为无序条目的集合

　　计算页面主题相关性的方法有很多，如朴素贝叶斯、神经网络、实例映射模型和向量空间模型（VSM），其中向量空间模型对训练文档的要求较低

0

2021-09-19

搜索引擎主题模型优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎主题模型优化(借鉴Web个性化推荐服务的思路以改善以搜索引擎为代表)

0 个评论

发起人