内部信息源与外部信息源搜索引擎优化方法的异同(本文基于最优化层次的概念背景图的主题爬行策略(图))

优采云发布时间: 2022-03-29 23:18

　　随着互联网的发展，人们已经习惯于从互联网上获取信息。话题搜索引擎越来越受到学术界和商界的关注。主题搜索引擎主要采集与特定主题相关的网页。主题爬虫是主题搜索引擎的资源。采集器在遍历网络资源的同时，会根据相关值的大小判断采集网页与特定主题的相关性，指定一个要抓取的 URL 的对应 URL。优先分数。因此，可以保证相关网页被下载，偏离主题的网页被丢弃，从而使采集的结果更好地满足用户的需求。本文提出了一种基于最优层次概念背景图的主题爬取策略。该策略首先要求用户向知名搜索引擎提交查询词，然后从返回的页面链接中选择几个用户最满意的初始页面作为本研究的初始页面。*敏*感*词*集。接下来，下载*敏*感*词*集对应的网页，提取网页上的特征词，构建概念背景图。然后在雅虎目录中选择不同层次的主题，对概念背景图进行分层研究。最后，提出了一种概念背景图的动态更新方法。论文的主要研究内容包括以下几点。提出了一种对传统概念背景图进行分层优化的方法。通过将完整的概念背景图像划分为不同的子概念背景图像，分别研究了各个子概念背景图像对网络爬虫的引导性能。提出了最优概念背景图的概念。传统的概念背景图往往收录相应概念网格中的所有概念。这样，概念网格中的所有概念都被划分到了传统概念背景图的相应层级。那些与核心概念相关性低的概念会影响引导性能。传统的概念背景图往往收录相应概念网格中的所有概念。这样，概念网格中的所有概念都被划分到了传统概念背景图的相应层级。那些与核心概念相关性低的概念会影响引导性能。传统的概念背景图往往收录相应概念网格中的所有概念。这样，概念网格中的所有概念都被划分到了传统概念背景图的相应层级。那些与核心概念相关性低的概念会影响引导性能。

　　在优化概念背景图的基础上，提出了一种概念背景图的动态更新方法。概念背景图一般是根据初始选择的*敏*感*词*集页面和页面对应的特征词构建的。但在引导话题爬取的过程中，往往会发现更多与话题相近的网页。为了让概念背景图保持活力，本文需要不断替换之前与主题相似度较低的概念。在替换过程中，动态概念背景图DCCG采用淘汰机制，逐步将外层概念替换为内层概念。论文利用经典的召回率、准确率和F Measure，将最优概念背景图与传统概念背景图进行比较。还将动态概念背景图与可更新的概念背景图进行比较。结果表明，本文的策略具有一定的优势和可行性。关键词

　　计算机的普及使人们改变了以往的信息获取渠道，使搜索引擎成为人们从互联网获取信息的主要方式。如何从浩瀚的互联网中快速定位并返回有用信息，是搜索引擎需要不断完善的核心技术。由于互联网信息量巨大，传统搜索引擎已经无法满足用户多样化的需求。一般搜索引擎无法满足用户需求的原因大致如下1、由于用户领域和偏好的不同，搜索的目的也不同。但是，一般的搜索引擎由于自身的特点，会返回一些不相关的网络资源。2、一般搜索引擎会返回尽可能多的与关键词相关的页面。在处理返回的网络资源时，搜索引擎服务器面临着更大的压力。3、随着互联网技术的不断发展，数据资源的形式也越来越丰富。对于一般的搜索引擎来说，在检索过程中遇到收录大量图片数据库、音视频的网页，就会变得更加无能为力。因此，提出了一种面向主题的搜索引擎，以弥补一般搜索引擎的一些不足。近年来，一些基于话题爬虫的智能性、个性化和主观性的话题检索正在逐步发展和成熟。课题研究的背景及意义互联网自诞生以来，就充满了神奇的力量，吸引着越来越多的人对其进行研究。

　　其中，搜索引擎的出现使人们获取信息的方式从报纸和新闻转向了互联网。这不仅使获取信息更容易，而且更准确。如今，互联网的更新周期越来越短，每天都有大量的信息被整合到互联网中。据互联网实验室不完全统计，2008年，中国有超过1000万的网站。在有限的时间内从如此大量的数据中获取对用户有用的信息并不容易。搜索引擎的出现使这些要求成为可能。通用搜索引擎在过去的十几年中发挥了巨大的作用。网络爬虫按照一定的爬取策略对整个 WWW 上的网页进行爬取。然后将检索到的网页编入索引。最后，用户提交请求后，搜索引擎会根据关键词在索引库中进行匹配，然后按照一定的排序算法将搜索结果返回给用户。网站的增长速度远大于搜索引擎，这将给通用搜索引擎带来新的挑战。此外，基于层次优化的动态概念背景图的话题爬取策略的研究也是一方面。用户一般只关心某一方面的信息，而不是期望搜索引擎返回所有相关的网页和查询词。例如，计算机相关领域的用户会希望搜索引擎返回一些关于该领域的会议、最新科学进展等信息，

　　相反，一些非专业电脑用户可能在搜索相同的关键词时，更关心某个品牌电脑的价格、性能等因素。因此，他们更愿意返回一些与网购相关的网页，而不是浪费时间从大量返回的结果中选择网页。如今，面对网页数量的不断增加，一般搜索引擎的网络爬虫需要越来越多的时间来更新索引库，这会导致很多最新的网络资源无法检索和索引。及时。传统的搜索技术也变得越来越难以找到与用户相关的网页。传统搜索引擎主要使用关键词匹配检索模式，无需挖掘词的上下文，根据用户的历史查询记录对不同用户的兴趣进行分类。所以如上例所述，不同用户输入相同关键词后的预期结果可能完全不同。为了解决上述问题，一些学者提出了一种用于主题搜索的爬虫策略。主题爬取策略的主要特点是人性化、智能化和领域化。这里的主题爬取策略的核心是实现一个主题爬虫，以某种方式对网页进行爬取。主题爬虫基本摒弃了关键词的词面匹配算法，而是深入挖掘词间语义和词所在上下文，分析用户需求。这样，将传统的基于文字匹配的搜索引擎升级为基于语义的检索。主题爬虫提取链接 URL 后，会提前预测 URL 对应的文档的相关性，并根据相关性的大小将与主题相关的网页排列在优先下载队列中。相关性值越高，捕获的效果就越好。挑选。

　　而通用爬虫则只按照深度优先或广度优先算法执行网页的爬取工作，直到满足条件时才结束爬取。索引过程搜索引擎的工作主要包括两个过程：索引过程和查询过程。索引过程是对检索到的信息进行词分析，然后根据不同文档中收录的各种词进行索引。这种索引技术很容易理解，就像小时候查字典一样。搜索引擎西华大学硕士论文的索引也是如此，但是应该用什么标准来建立索引呢？如果索引数据库按字母顺序排列，假设建立了一个拥有100亿网页的搜索引擎的索引数据库。按字母表索引最终将在每组索引中收录 100 亿个 2685 亿个 URL。这也是一个巨大的数字，所以目前的搜索引擎索引是按单词排序的。因为每种语言的字数是相对固定的。例如，英语有超过一百万个单词。按照同样的方法，指标项数为100亿10000。因此，为每组索引的网页数据量显着减少了几个数量级。今天的计算机很容易将10,000条信息一条一条地检索出来。而使用词进行索引分类的另一个好处是可以匹配用户的查询词。

　　所以最终的索引库类似于表11中的结构。例如，当用户输入查询词“mp3 palyer”时，会同时在mp3和player的两个索引链接中找到交集部分，而交集部分会放在返回列表的顶部，其余部分会显示在后面。当然，有些搜索引擎不会返回不在交叉点的 URL，因为根据调查，用户只关心前几页的内容。索引数据库的存储方式 Tab storagemode indexdatabase Mp3 www mp3 com en wikipedia org wiki mp3 www mp3raid com www amazon com mp3 playerwww bbc co uk iplayer www itv com itvplayer www real com www adobe com products flashplayer 查询流程查询流程为为用户提供服务的过程。在这个过程中，用户只需要向搜索引擎提供的用户界面提供查询词，搜索引擎就会对相关文档进行排序返回。查询过程对用户是透明的。后台执行的流程如图11所示。基于层次优化的动态概念背景图主题爬取策略研究

　　主题搜索是从初始*敏*感*词*中选择性地下载相关网页。早在 1994 年，DeBra 等人。提出了基于鱼类觅食行为的“鱼搜索”模型，被认为是最早的主题搜索模型。在这个模型中，主题爬虫被描述为一群鱼，它们朝一个方向游来寻找与食物相关的文档并复制以提取子链接。所获得食物的质量直接决定了后代的健康，即是否获得了好的资源，其超链接的相关性很高。DeBra 为每个网页分配一个潜在的分值。如果相关，则为1，如果不相关，则为0。在执行“鱼搜索”算法期间，将维护一个优先级队列。这些相关的子链接放在队列的前面，而相关的子链接放在队列的后面。1998 年，Michael Hersovici 等人提出了一种改进的“鱼搜索”算法10。他们改进了鱼群算法中使用的二进制方法，以确定网页是否与相似度引擎相关。相似度引擎用于评估新文档与查询之间的相似度，最终相似度值是区间内的“模糊”值。同年，斯坦福大学的 Cho 11 提出了著名的 PageRank 算法。PageRank 不直接计算网页链接的数量来对网页进行排名，而是对指向它的网页的 PageRanks 进行加权总和。1998 年，Michael Hersovici 等人提出了一种改进的“鱼搜索”算法10。他们改进了鱼群算法中使用的二进制方法，以确定网页是否与相似度引擎相关。相似度引擎用于评估新文档与查询之间的相似度，最终相似度值是区间内的“模糊”值。同年，斯坦福大学的 Cho 11 提出了著名的 PageRank 算法。PageRank 不直接计算网页链接的数量来对网页进行排名，而是对指向它的网页的 PageRanks 进行加权总和。1998 年，Michael Hersovici 等人提出了一种改进的“鱼搜索”算法10。他们改进了鱼群算法中使用的二进制方法，以确定网页是否与相似度引擎相关。相似度引擎用于评估新文档与查询之间的相似度，最终相似度值是区间内的“模糊”值。同年，斯坦福大学的 Cho 11 提出了著名的 PageRank 算法。PageRank 不直接计算网页链接的数量来对网页进行排名，而是对指向它的网页的 PageRanks 进行加权总和。相似度引擎用于评估新文档与查询之间的相似度，最终相似度值是区间内的“模糊”值。同年，斯坦福大学的 Cho 11 提出了著名的 PageRank 算法。PageRank 不直接计算网页链接的数量来对网页进行排名，而是对指向它的网页的 PageRanks 进行加权总和。相似度引擎用于评估新文档与查询之间的相似度，最终相似度值是区间内的“模糊”值。同年，斯坦福大学的 Cho 11 提出了著名的 PageRank 算法。PageRank 不直接计算网页链接的数量来对网页进行排名，而是对指向它的网页的 PageRanks 进行加权总和。

　　Cho的研究发现，按照网页入度作为搜索顺序，搜索性能类似于西华大学硕士论文的深度优先搜索，使用PageRank算法可以更好的结合深度的优势——第一和广度优先方法。性别。查克拉巴蒂等人。1999年根据主题分类的思想设计了一个基于分类器的主题搜索引擎模型。系统首先在目录搜索引擎上找到几个已经分类的子主题，然后将选定子主题中收录的部分页面提取出来作为训练集进行训练。当抓取一个新的网页时，该网页会被送到分类器进行相关性判断。如果页面相关，页面中收录的超链接将被添加到要爬取的链接池中，否则将被丢弃。2000 年，Dligenti 等人。提出了一种新的搜索策略13，其中考虑了使用上下文图来指导网页爬取的策略。Dligenti 认为相同主题的页面通常收录相似的链接结构。通过构建典型页面的Web“背景图”来估计与目标页面的距离，更接近目标页面的页面将被更早地访问。2001 年 Menczer 等人。14 评估了几种不同的搜索策略。建议一个好的面向主题的搜索引擎应该在空间上尽可能地保持搜索范围接近主题。提出了一种新的搜索策略13，其中考虑了使用上下文图来指导网页爬取的策略。Dligenti 认为相同主题的页面通常收录相似的链接结构。通过构建典型页面的Web“背景图”来估计与目标页面的距离，更接近目标页面的页面将被更早地访问。2001 年 Menczer 等人。14 评估了几种不同的搜索策略。建议一个好的面向主题的搜索引擎应该在空间上尽可能地保持搜索范围接近主题。提出了一种新的搜索策略13，其中考虑了使用上下文图来指导网页爬取的策略。Dligenti 认为相同主题的页面通常收录相似的链接结构。通过构建典型页面的Web“背景图”来估计与目标页面的距离，更接近目标页面的页面将被更早地访问。2001 年 Menczer 等人。14 评估了几种不同的搜索策略。建议一个好的面向主题的搜索引擎应该在空间上尽可能地保持搜索范围接近主题。典型的页面来估计与目标页面的距离，更接近目标页面的页面将被更早地访问。2001 年 Menczer 等人。14 评估了几种不同的搜索策略。建议一个好的面向主题的搜索引擎应该在空间上尽可能地保持搜索范围接近主题。典型的页面来估计与目标页面的距离，更接近目标页面的页面将被更早地访问。2001 年 Menczer 等人。14 评估了几种不同的搜索策略。建议一个好的面向主题的搜索引擎应该在空间上尽可能地保持搜索范围接近主题。

　　在评估中，得到如下结论： 1、BestFirst采集器要爬取的队列中的URL对应的优先级得分是收录链接和主题的网页得到的余弦相似度值根据向量空间模型VSM。2、PageRank Collector 这种类型的采集器使用每个网页的pagerank值作为搜索顺序的依据。如果搜索到 25 个网页，每个网页都会重新计算分值。3、InfoSpiders 将链接周围的上下文考虑到所使用的神经网络算法中。实验结果表明，BestFirst 具有良好的主题搜索性能，而 PageRank 不能很好地搜索特定主题。InfoSpider 的主题搜索性能介于两者之间。2003 年，本体思想再次被用于主题爬取 15 。2005 年，Rungsawang 等人。使用采集到的网页进行知识提取和学习，指导后续爬取工作16. 2007年，董战兵将形式概念分析（FCA）的知识引入主题搜索17，使传统的基于关键词匹配的搜索机制进入了概念层面。2008年，杨跃奎在形式概念分析的基础上，提出了概念相似度背景图18。核心思想是通过计算概念与核心概念之间的相似度值来衡量未访问 URL 的优先级。2009年，彭强强通过研究发现概念可以根据属性进行分层19，提出了基于概念上下文图的主题爬虫。

　　高兆琼进一步完善了概念背景图20-21的引导作用，通过不断更新概念背景图中的概念来指导主题爬虫的爬取工作。在爬取过程中，一些相关的概念会被添加到概念背景图中，那些不相关的概念会被删除。基于层次优化的动态概念背景图的主题爬取策略研究 2009 年，Batsakis22 利用隐马尔可夫模型将网页内容和锚文本考虑在内，极大地提高了主题爬取的性能。考虑到话题爬虫无法从语义层面理解用户的兴趣，虽然一些新的表达方式网站 XML 23 RDF 24 DOM 25 Dublin 元标签 26 和 WOM 27 等文档标准可以帮助查找文档页面之间的交叉引用当用户搜索网站信息时，它仍然无法帮助用户获取语义级别的信息。因此，杨在2010年提出了基于本体网站模型的主题信息爬虫。28 2013 年，杜亚军等人。使用形式概念分析的知识来计算概念之间的相似性29。并利用用户浏览网页的日志信息对新发现的网页进行排序。同年，杜亚军等。提出了一种基于用户兴趣本体为主题爬虫选择初始*敏*感*词* URL 的方法。从主题爬虫的研究过程来看，研究一般从基于<< @关键词到基于语义的匹配。.

　　早期的主题搜索策略与一般搜索引擎相比，在一定主题区域内获得的主题相关网页得到了很大的提升。但是，用户对个性化和智能化的期望还存在一定差距。因此，后来的研究人员大多采用知识本体、形式概念等方法进行相关改进，以更好地满足用户的日常需求。本文的主要研究内容，面向主题的搜索，是在传统搜索引擎中加入主题判断模块而形成的智能搜索引擎。主题搜索往往需要在抓取与主题相关的网页之前学习用户给出的知识背景，也可以称为网络爬虫的训练。因为仅仅从字面上保持主题判断是不够的。比如数码爱好者输入“apple”的关键词进行查询，那么他的预期很可能是iphone系列产品。同样的关键词是一位老农输入的关于水果市场苹果价格的信息。因此，主题搜索有必要将其提升到语义层面。本文对这一思想进行了一系列研究。具体内容安排如下。第一章，引言，介绍了主题搜索的背景和发展。第二章介绍了一些主题搜索的知识。第三章基于搜索引擎服务器资源的限制和爬虫效率问题。本章主要研究概念背景图的分层。基于这个想法，提出了一种优化传统概念背景图图层的方法。第四章提出了一种根据概念背景图的静态动态更新概念背景图的方法，会影响后续的爬取性能。这种具有动态更新能力的概念背景图像称为动态概念背景图像 DCCG

0

2022-03-29

内部信息源与外部信息源搜索引擎优化方法的异同

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内部信息源与外部信息源搜索引擎优化方法的异同(本文基于最优化层次的概念背景图的主题爬行策略(图))

0 个评论

发起人