采集自动组合(预测链接价值的Web信息固定组合的算法进行了比较)

优采云发布时间: 2022-03-24 07:12

　　为了提高Web采集系统预测链接值的准确性，提出了一种方法。一个可以根据现有的采集页面调整Web信息重要性的Web。它具有学习能力，可以通过对训练集的爬取，分析各种Web信息对预测链接值的重要性，从而调整采集过程中，得到各个Web信息的组合权重，得到更好的符合Web实际情况的搜索策略。以计算机为采集的主体，将该算法与传统的Web信息固定组合算法进行了比较。实验结果表明，与传统的Web采集用户相比，使用该算法的采集用户具有更高的Web搜索准确率。关键词：Web 采集用户；链接值；主题搜索；搜索策略；Web 信息组合 CCL：TP391 Shake文章代码：1673-629X(2013)11-0216-03doi:10. 3969 issn.1673 - 629X. 2013. 11. 053 Research InformationCombination WebCollecting 张玲,徐亮,蒋华（湖南第一师范学院信息科学系，长沙410205）摘要：为了精准获取网页主题，网络爬虫通常使用各种Web信息链接a鄄gesye值。论文中，为了Webcrawlersaccuracy predictinglinkagesvalue，提出了一种Web搜索策略，可以根据爬取的网页自动调整各种Web信息。爬虫具有学习能力，可以通过爬取训练集分析Web信息，以及Web信息，得到更好的搜索策略对应的实际Web。传统 Web 信息组合算法实验结果表明，基于 Webcrawler 的固定权重 Web 信息，新的爬虫具有更高的搜索精度。关键词：网络爬虫；链接价值；话题搜索；搜索策略；网络信息组合虽然互联网上有很多优秀的搜索引擎，如Google、Yahoo、AltaVista等，但由于信息量的不断增长和快速更新，常见搜索引擎的信息覆盖率不断下降，即使在目前全球最大的搜索引擎谷歌中，也只索引了全部网页的 40%。关键词：网络爬虫；链接价值；话题搜索；搜索策略；网络信息组合虽然互联网上有很多优秀的搜索引擎，如Google、Yahoo、AltaVista等，但由于信息量的不断增长和快速更新，常见搜索引擎的信息覆盖率不断下降，即使在目前全球最大的搜索引擎谷歌中，也只索引了全部网页的 40%。关键词：网络爬虫；链接价值；话题搜索；搜索策略；网络信息组合虽然互联网上有很多优秀的搜索引擎，如Google、Yahoo、AltaVista等，但由于信息量的不断增长和快速更新，常见搜索引擎的信息覆盖率不断下降，即使在目前全球最大的搜索引擎谷歌中，也只索引了全部网页的 40%。

　　此外，传统的信息检索方式已经不能满足特定人群对特定信息的需求。专业的搜索引擎是目前解决上述问题的较好方式，其出现也是一种技术趋势。它只搜索某个主题，并提供有关该主题的更全面和准确的信息。它对网络蜘蛛的搜索效率提出了更高的要求，要求它有选择地搜索那些与预定义主题相关的页面。在专业的搜索引擎中，Web采集器的任务是确定链接的访问顺序，获取网页。采集的专业主题页面在遍历 Web 时尽可能多地引用采集和已建立的主题。虽然现有的网页排序方法有很多，它们可以概括为两类：基于文本内容的和基于Web链接结构的。为了更准确地预测待采集页面的主题相关性，利用各种Web信息来判断搜索方向。现有搜索算法中最常用的网页信息有页面URL、父页面信息、兄弟链接信息和链接文本信息。以上四类网页信息可以独立用于Web采集的搜索算法和网页的排名算法中，可以结合起来更准确地预测链接主题的相关性。目前现有的采集算法通常在采集时根据固定的权重确定这四种信息的组合，但实际上，

　　因此，Web 信息的组合应该能够根据 Web 资源的实际情况动态调整，以达到更好的符合 Web 实际情况的搜索策略，并具有一定的自学习性。基于以上分析，本文提出了一种可以自学习Web信息组合的Web采集策略。这个策略可以根据采集预爬的实际结果和预期结果的差异进行调整。各类Web信息的判断权重。实验结果表明，新算法比固定权重的组合算法具有更高的搜索效率。现有信息组合算法概述 Web采集器的任务是确定访问链接的顺序并获取网页，通常从一个“初始*敏*感*词*集”开始，以迭代的方式访问页面并提取上面的链接采集在@>过程中，未访问的链接被临时存储在一个称为“搜索前沿”的队列中。采集器根据搜索前沿中链接的“重要性”，确定下一个要访问的链接。Web采集器未访问链接的重要性只能根据已经采集的信息来预测。目前，常用来预测链接值的Web信息有：父页面信息、链接文本信息、页面URL信息和兄弟链接信息。页面的URL信息。有时可以从页面的 URL 地址大致推断出页面的主题。例如：

　　2)通常情况下，如果父页面的文本内容与要搜索的主题高度相似，那么父页面的*敏*感*词*的文本信息与主题高度相关，则链接所指向的页面更有可能与主题相关。*敏*感*词*学者对如何利用Web信息来指导Web的采集过程进行了大量研究采集器：通常使用最多的是父页面的文本信息和链接文本信息。主要根据主题信息（如：关键词，主题相关文档）与网页或链接文本的“语义相似度”来判断链接值的高低，相似度越高给定更高的链接。查鲁 C. Aggarwa提出了一种基于信息熵的Web采集方法，给定某个页面的各种Web信息[8-9]，计算该页面属于主题的概率的信息增益，然后这些信息增益值根据固定权重进行加权求和，

　　参考文献[6]结合了几种Web信息，通过计算简单的加权和来预测链接值。链接的综合价值是通过父页面信息、链接文本信息、链接URL信息、兄弟链接信息来预测的。相关性只是简单地加权，越重要的信息对应的权重越大。信息组合模式的自适应改进根据对Web信息资源的分析，Web资源的组织形式是多种多样的，不同主题资源的组织形式往往差异很大[10-11]一些URL标志包括获取更多主题信息，并且一些父子页面的主题相关性非常接近。因此，上述算法都有一个共同的不足，即采集器无法根据Web资源的实际组织情况自动调整每条信息的预测重要性，缺乏自学习能力。在本文中，为了使采集器在调整Web信息的重要性方面进行自学习，在主题采集之前，采集器使用一小部分*敏*感*词*集进行训练，根据预爬的方法。修正采集中页面实际相关度与根据每条Web信息预测的相关度的差异，修正每条Web信息的判断权重，最终得到符合主题和实际的合适权重万维网的情况。本文选取了四种常见的Web信息：父页面信息、链接文本信息、链接URL信息、和兄弟链接信息共同处理采集页面预测和主题之间的相关性。公式如下：其中，I(p )为链接p的综合值，反映了链接所指向的页面与主题的可能相关性；I表示根据链接文本信息、兄弟链接信息、父页面信息、链接URL信息预测的链接为实数，表示加权，反映了各个Web信息对判断链接值的重要性，越多重要信息对应较大的权重。它反映了链接所指向的页面和主题的可能相关性；I表示根据链接文本信息、兄弟链接信息、父页面信息、链接URL信息预测的链接为实数，表示加权，反映了各个Web信息对判断链接值的重要性，越多重要信息对应较大的权重。它反映了链接所指向的页面和主题的可能相关性；I表示根据链接文本信息、兄弟链接信息、父页面信息、链接URL信息预测的链接为实数，表示加权，反映了各个Web信息对判断链接值的重要性，越多重要信息对应较大的权重。

　　现有算法是根据统计数据在采集之前人为设置的，不会随着主题和页面集的不同而变化，难以适应所有的搜索条件。为了使采集器能够为实际的采集任务选择合适的权重，在进入页面采集之前，会选择一小部分*敏*感*词*集来预训练采集器。训练开始时将四种Web信息的权重设置为相等（W Ling et al.: Research on the self-learning of information combination in Web采集, Web information预测页面的相关性为采集，这保证了训练过程中的无偏权重设置。对于搜索前沿队列中每个待处理的采集链接 p，根据已知的链接文本信息、兄弟链接信息、父页面信息、链接URL信息来预测该链接所指向的页面与主题的相关性，称为预测相关性。表示I所指向的页面后，计算该页面与主题的实际相关度，记为R(p)。这样，根据每类信息得到的实际相关性和预测相关性之间存在差异，可以用这种差异与实际相关性的比值来衡量预测相关性与实际相关性之间的偏差。记为偏差值f，计算方法见公式(2)。偏差值越小，基于此类Web信息预测的链接值越准确。在实际采集中，可以适当增加这个Web信息的重要性，就是在公式（1).

　　users基于固定权重的web信息的加权和与本文讨论的web信息结合自学习采集users来比较采集的性能。实验的主题是关于人工智能的采集论文。页面与本词典之间的文本相似度用于评估与主题的相关性。

　　向量空间模型用于表示网页，页面的相似度采用向量间夹角的余弦公式。实验中，使用搜索准确度来评价该算法的采集性能，计算如下：搜索准确度=结果集中相关文档数占结果总文档数设置为固定权重的采集，使用统计数据设置权重，对于权重自学习采集的人，仔细选择网站关于人工智能的一部分作为*敏*感*词*集训练它，获取权重，然后让它执行采集任务。具有自学习权重的采集用户访问的页面数和采集访问的页面数计算了固定权重的用户和采集的AI相关网页的数量，并计算了他们的搜索准确率。，进行对比（见图1)。可以看出，由于权重自学习Web采集通过训练集的学习优化了Web信息的组合权重，在采集采集任务在搜索准确率上明显比固定权重的Web采集用户有优势，比如当50%的页面被访问时，权重自学习的Web采集搜索准确率比基于固定加权和算法的Web采集提高12%左右，错误率更小，可以更灵活地针对实际Web资源情况进行自我调整。分析了主题爬取算法。

　　该算法进一步考虑了网页的链接结构和主题内容，大大提高了信息采集的召回率，同时也过滤掉了大量的噪声链接，提高了搜索效率。在接下来的工作中，我们将继续挖掘网页中收录的主题信息，结合可以代表网页链接结构的PageRank值，进一步提高算法的性能。参考文献：搜索引擎与网络挖掘进展[M]．北京：高等教育出版社，2003：34-40. AggarwalC,AI -Garawi F,Yu Intelligentcrawling Worldwide web 任意谓词[第十届国际万维网会议。香港：[s。专业搜索引擎的排序算法研究[J].现代图书馆与信息技术,2006(7):20-2< @4. 主题爬虫的设计与实现[J]. 计算机应用, 2004, 24(06Z): 270-272. 支持Web信息分类的高性能蜘蛛程序[J]. 小型微机系统, 2006, 27(7):1308- 1312.@ > ChakrabartiS,van den Berg M,Dom Distributedhyper鄄text resource discovery through examples[C] VLDBconference. Edinburgh,Scotland:[s. Accelerated评价算法：一种提高网页结构挖掘质量的新方法[J].计算机研究与发展，2004,41(1):98-103.网页识别中的特征选择研究[J]. J].计算机工程,2000,26(8):35-37. 支持Web信息分类的高性能蜘蛛程序[J]. 小型微机系统, 2006, 27(7):1308- 1312.@ > ChakrabartiS,van den Berg M,Dom Distributedhyper鄄text resource discovery through examples[C] VLDBconference. Edinburgh,Scotland:[s. Accelerated评价算法：一种提高网页结构挖掘质量的新方法[J].计算机研究与发展，2004,41(1):98-103.网页识别中的特征选择研究[J]. J].计算机工程,2000,26(8):35-37. 支持Web信息分类的高性能蜘蛛程序[J]. 小型微机系统, 2006, 27(7):1308- 1312.@ > ChakrabartiS,van den Berg M,Dom Distributedhyper鄄text resource discovery through examples[C] VLDBconference. Edinburgh,Scotland:[s. Accelerated评价算法：一种提高网页结构挖掘质量的新方法[J].计算机研究与发展，2004,41(1):98-103.网页识别中的特征选择研究[J]. J].计算机工程,2000,26(8):35-37. 一种提高Web结构挖掘质量的新途径[J]．计算机研究与发展,2004,41(1):98-103.网页识别中的特征选择研究[J].计算机工程,2000,26(8):35- 37. 一种提高Web结构挖掘质量的新途径[J]．计算机研究与发展,2004,41(1):98-103.网页识别中的特征选择研究[J].计算机工程,2000,26(8):35- 37.

0

2022-03-24

采集自动组合

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集自动组合(预测链接价值的Web信息固定组合的算法进行了比较)

0 个评论

发起人

AI时代内容工厂

采集自动组合(预测链接价值的Web信息固定组合的算法进行了比较)

0 个评论

发起人

相关问题