-87-信息产业1主题爬虫的个性化搜索引擎概述
优采云 发布时间: 2021-05-13 01:39-87-信息产业1主题爬虫的个性化搜索引擎概述
-87-信息产业1主题采集器的个性化搜索引擎概述1. 1个性化搜索引擎个性化搜索引擎既指界面的个性化,又指内容的个性化。基于个性化推荐服务的搜索引擎属于个性化搜索引擎的类别。界面个性化是为了向用户提供自定义搜索引擎的界面样式和布局功能,并根据用户的需求为用户提供预先定制的界面;内容个性化是为了使用户能够自定义搜索结果,而无需检索信息。有需要的用户即使使用相同的搜索词也将获得不同的匹配结果。显然,这里的重点是内容的个性化,其实际含义大于界面的个性化。 1. 2 Web爬网程序Web爬网程序,也称为蜘蛛程序(Spider)。 Web采集器是一个自动提取网页的程序,是搜索引擎的重要组成部分。网络蜘蛛通过网页的链接地址搜索网页。他们从网站中的某个页面(通常是主页)开始,读取网页的内容,在网页中找到其他链接地址,然后使用这些链接地址查找下一个网页。 ,因此循环将继续进行,直到此网站的所有网页都已被爬网。如果将Internet视为网站,则Spider可以使用此原理对Internet上的所有网页进行爬网。它在搜索引擎中占有重要地位,影响搜索引擎的检索和准确性,确定搜索引擎数据容量的大小,网络爬虫的质量直接影响搜索结果页面中的无效链接(即链接到搜索结果页面)。页数不存在。
1. 3 Web爬网程序在搜索引擎中的位置从上面搜索引擎的基本原理可以看出,Web爬网程序是一种可以跟踪Web上超链接结构并不断发现的网络爬虫。网络资源和采集程序。作为搜索引擎资源的一部分采集,网络采集器的性能将直接影响整个搜索引擎索引的网页的数量,质量和更新周期。 2基于主题采集器的个性化搜索引擎技术2. 1信息采集模型主题采集器基于普通的采集器,并通过在网页的整个处理过程中添加模块来实现个性化信息提取。这些模块包括主题确定模块,优化初始*敏*感*词*模块,主题相关性分析模块和排名模块。 (请参见图1)在图1中,有1个采集器模块检索了该网页。 2调用相关性分析模块以分析网页的相关性。 3爬行模块根据不同的分析结果进行相应的处理。 4爬网模块从数据库中获取等待处理的URL以继续工作,并循环到第一步,直到没有新的URL。 5排序网页的重要性。主题采集的关键是采集的结果与主题之间相似度的计算。可以通过相关的链接信息来预测结果为采集的相似度,以反映用户的个性化需求。 2. 2基于主题和用户个性化的爬网程序基于主题的爬网程序是选择性地搜索与预定义主题相关的页面的爬网程序。与基于整个Web的采集器相比,它不会采集与主题无关,节省硬件和网络资源的页面,并且由于数量很少而可以快速更新。
它还可以满足某些特定人群对特定领域信息的需求;基于用户个性化的采集器是一个轻量级的采集系统,其目标是引导用户的兴趣或与之互动。用户交互和其他方式来自采集信息,以向用户提供个性化服务。 2. 3超链接结构搜索策略基于链接结构的搜索策略的主要特征是使用Web结构信息来指导搜索,并通过分析Web页面之间的引用之间的关系来确定页面和链接的重要性。 。超链分析技术是主题搜索引擎使用的一种重要方法。下面将介绍几种重要的超链接分析算法。 2. 3. 1 PageRank算法PageRank算法是由斯坦福大学(Stanford University)(斯坦福大学)的Sergey Brin和Lawrence Page提出的。基本思想是:如果一个页面被许多其他页面引用,那么此页面很可能是重要页面;尽管该页面没有被多次引用,但是被一个重要页面引用了,那么该页面也可能是一个重要页面。重要页面;页面的重要性被平均划分并传递到它所引用的页面。页面重要性的量化分数是PageRank值。 Google的搜索引擎使用PageRank算法。网络中的超链接结构可以表示为有向图G =(V,E),其中V是节点(网页)的集合,E是边缘(当且仅当存在从第i页到第i页的链接时)在页面j中,在节点j)的边缘设置了一个从属节点i。假设页面u的链接网页为T1,T 2. .. Tn;参数d表示沿着该链接访问网页的“随机冲浪者”的衰减因子,取值范围为(0到1)之间,根据经验一般取值为0. 85。
C(Ti)表示从网页Ti链接到其他网页的链接数,PR(u)定义为网页u的链接权重。 PageRank值的计算公式为公式(1):其中e为1 / max,即max是所有网页的总和,分配给每个网页的初始权重是该总和的倒数。该算法的特征在于,指向网页的外部链接页面的页面级别越高,链接页面传递给网页的页面级别值就越高。因此,即使网页偶尔在内容中仅提及偏离查询主题的关键词语言,由于其较高的页面排名值,它也将获得相对较高的排名,这会影响搜索结果的相关性和相关性。精确。 2. 3. 2 HITS算法HITS算法由康奈尔大学的J. Kleinberg提出。 Kleinberg将网页分为两类,即集线器(中央级别)和权限(权限级别)。权威是具有较高价值的页面,并取决于指向它的页面,而集线器是指向更多权威并取决于它指向的页面的页面。 HITS算法的目标是通过某种计算方法(即具有最高排名的权威)来获取某个检索问题的最有价值的网页。但是,此算法在计算上比PageRank昂贵。而且它取决于用户的查询,实时性能很差。
此外,Authorities andhubs算法可能会出现“主题漂移”和“主题概括”现象。因此,“权威和中心”算法适用于各种主题的查询。 2. 3. 3 PageRank算法的改进。 PageRank算法的改进可以通过引入面向主题的思想并重新计算网页的链接关系来实现。首先,PageRank在发现页面重要性方面起着重要作用,但它并不针对某个特定主题(查询独立性)。这里,对PageRank方法进行了改进:在链接关系的基础上,增加了一定的语义信息权重,使得生成的重要页面针对某个主题,从而形成了SPageRank算法。 SPageRank算法不仅利用PageRank的优势来查找重要页面,而且还利用主题相关性。 2. 3. 4主题相关性算法搜索引擎的根源是传统的全文检索技术,并且搜索引擎遵循传统的信息检索模型。在用于计算文档相似度的传统算法中,Salton教授提出的向量空间模型是使用最广泛的算法。向量空间模型基于以下关键假设:组成文章的术语的出现顺序无关紧要,并且它们在文章主题中的作用彼此独立,因此可以将文档视为一系列无序条目的集合。
计算页面主题相关性的方法很多,例如NaiveBayes,神经网络,实例映射模型,向量空间模型(VSM)等。其中,向量空间模型对培训文档的要求较低。可以从少量的培训文档中提取出主要目标特征,计算简单,准确率高,更适合网络信息的发现。一种基于向量空间模型VSM的简单向量距离算法。该算法的基本思想是计算图2中两个向量之间的夹角的余弦值。VSM相似度的计算公式如公式(2):结论基于主题的个性化搜索引擎主要针对采集相关主题,并为用户提供个性化的信息服务。基于主题的采集的关键是计算采集的结果与主题之间的相似度。可以通过相关的链接信息来预测结果为采集的相似度,以反映用户的个性化需求。参考文献[1]高灵霞。基于主题爬虫的个性化搜索引擎技术分析[J]。计算机知识与技术.2009(32)[2]赵洪中李亚。垂直搜索引擎的应用研究[J]。现代商业工业。 2010(4)作者简介:陈晨(1989,5,11〜)女,汉族,哈尔滨大学工程学院,计算机科学与技术专业。基于主题爬虫的个性化搜索引擎技术研究陈晨(哈尔滨大学,哈尔滨15000,黑龙江0)摘要:基于主题爬虫的个性化搜索引擎技术借鉴了Web个性化推荐服务的思想,完善了Web表示搜索引擎的信息检索系统服务方法有效解决了互联网上“资源超载”和“信息丢失”的问题,相对满足了用户的需求。 关键词:主题采集器;搜索引擎;技术图1基于主题采集器的个性化信息采集模型图2 VSM模型图(2)