案例研究：Web信息主题采集技术研究.pdf 7页

优采云发布时间: 2020-08-30 19:07

　　网络信息主题采集技术研究.pdf 7页

　　Web信息主题采集技术研究李春旺（中国科学院文献信息中心，北京100080）[摘要]在对主题信息采集系统进行简要介绍之后，本文对其核心进行了深入研究. 5个方面的技术，包括*敏*感*词*页面生成，主题表示，相关性计算策略，爬网策略和结束搜索策略. 详细讨论了*敏*感*词*页生成的手动，自动和混合方法，基于关键字的主题表示和基于本体的主题表示，多种相关性计算启发式策略的比较，基本爬网策略和隧道技术以及许多最终爬网的情况和情况以此类推. 文章不仅分析了相关技术的算法，特点和应用，还根据主题信息采集的特点提出了相应的改进意见. [关键词]网络搜索引擎主题采集技术概述[分类号] G250.76； G252.7集中式Web爬虫技术李春旺（中国科学院图书馆北京100080）[摘要]本文简要介绍了集中式Web爬虫的核心技术. 三种主要模式用于创建*敏*感*词*URL. 本文讨论并分析了一些基于关键字和本体的主题描述，各种启发式功能和算法，隧道方法，基本的集中爬网策略和停止爬网策略等技术方法. 此外，通过比较焦点爬行算法的优缺点，提出了改进Web爬行技术的建议. [关键词]焦点在于Web搜索引擎的爬行技术随着网络技术和信息需求的发展，普通搜索引擎的缺点越来越多更明显.

　　它搜索整个Web，但是实际覆盖率不到所有静态网页的20％[1]；它使用相同的信息域来支持来自所有用户的各种检索请求，缺乏针对性，从而导致大量不相关的结果. 为了克服通用搜索引擎的缺点并满足科研人员针对特定学科的深入信息需求，人们提出了基于主题的搜索技术. 所谓主题搜索是指根据用户自定义主题内容搜索有限的网络空间，发现和下载主题相关信息，并提供个性化信息服务. 主题信息采集系统代表了搜索引擎的未来发展方向[2]，其核心技术包括*敏*感*词*页面生成，主题表示，相关性计算策略，主题爬网策略和最终搜索策略. 1*敏*感*词*页面生成技术*敏*感*词*页面是主题爬网的起始页面. 每个*敏*感*词*页面是一个特定的网页，可以是网站的主页或网站的子页面. 为了突出爬行起点的特殊性，缩小爬行范围并提高爬行效率，在这里将其称为“*敏*感*词*页面”而不是“*敏*感*词*站点”. *敏*感*词*页面的选择将直接影响信息采集的质量和采集工作的效率. 因此，*敏*感*词*页面需要具有较高的主题相关性和主题链接的中心性. 生成*敏*感*词*页面的方法有三种: ①手动指定，即专家给出的相关*敏*感*词*页面，也称为模板页面； ②自动生成，用户指定一些关键字（例如: “数字图书馆”，“重点爬虫”），并将这些关键字提交给常规搜索引擎（例如Google），从搜索结果中提取前N页作为*敏*感*词*页面； ③混合模式，即自动生成和手动指定的组合，首先使用通用搜索引擎来获取一些相关页面. 然后手动筛选，过滤，合并和评估页面，以形成一组*敏*感*词*页面，这些页面可以完全反映主题的特征.

　　构造*敏*感*词*页面是一个复杂的过程，并且上述方法也有局限性. 最好的策略是增加系统的学习能力. 通过建立主题主题*敏*感*词*页面库，基于对搜索历史和用户反馈信息的分析，可以动态优化相关主题的*敏*感*词*页面集，并提供默认*敏*感*词*页面用于自定义新主题，并且为用户提供了*敏*感*词*页选择和评估的参考. 2主题表示技术主题描述的不正确通常是导致搜索结果不佳的重要原因. Soumen Chakrabarti等人的研究. [3-4]显示，要获得良好的搜索结果，搜索查询平均需要7.03个搜索词和4.34个运算符，而Alta Vista实际收到的用户搜索查询平均只收录2.35个关键字和0.41个运算符. 主题表示是主题信息采集的前提. 当前常用的主题表示形式包括关键字符号，本体表示法等. 2.1基于关键字的主题表示法基于关键字的主题表示法是指使用功能关键字集（主题关键字）来表示主题内容. 关键字可以是单个单词或短语，包括诸如权重和语言之类的属性. 关键字通常从*敏*感*词*文档中提取. *敏*感*词*文档包括用户指定的模板文档（包括在爬网之前指定的相关文档和在爬网期间用户反馈的相关文档），与*敏*感*词*页面相对应的相关文档以及指向*敏*感*词*页面的邻居链接. 扩展后生成的文档.

　　所谓的邻居链扩展是指根据链接入和链接出关系扩展*敏*感*词*页面，并增加指向*敏*感*词*页面的父页面（取第一个N），从而扩展*敏*感*词*文档集. 该邻居链扩展可以根据需要重复多次. Goo gle和Alta Vista等搜索引擎提供父链查询服务. 例如，如果您向Google提交搜索查询: 链接: / home / kleinber /，则可以返回所有指向/ home / kleinber /页面的父页面. ARC测试系统[5]采用这种方法来建立*敏*感*词*文件. 生成主题headwords通常涉及以下7个步骤: 第一步是接收用户输入的模板文档（如果有）；第二步是生成*敏*感*词*页面；第三步是通过邻居链扩展*敏*感*词*页面以生成扩展*敏*感*词*页面（重复该操作，直到满足指定条件为止）；第四步，根据扩展后的*敏*感*词*页面获取对应的*敏*感*词*文档集；第五步，将用户输入的样本文档与系统生成的*敏*感*词*文档集合并为*敏*感*词*文档sDOC. 第六步，使用TF / IDF等算法计算*敏*感*词*文档sDOC的词频，并计算权重. 第七步，使用权重最高的前N个词形成关键字集，以表示给定爬行任务Q [6]的主题. 早期的主题采集系统基本上采用了基于关键词集的主题表示，例如Mercator [7]和北京大学天网.

　　2.2基于本体的主题表示技术使用概念集来描述用户需求. 它不仅可以很好地描述主题内容，而且可以揭示概念之间的语义关系，提高主题描述的准确性，并使主题的相关性计算和主题爬网策略计算更加准确. 为了创建主题本体，有必要首先根据对主题内容，主题范围和用户需求的相关条件的分析，确定相关的概念和属性；然后，根据主题本体系统，建立主题概念和属性之间的关系和功能，并生成主题本体的具体实例. 最后，利用主题本体指导主题信息采集中的主题判断2，并在采集过程中利用用户反馈不断优化主题本体实例，从而更好地表达主题信息. 相关匹配计算是基于本体主题实现的关键. 本体是有向图，目标文档是文本流. 由于结构上的差异，无法将两者直接关联，需要对其进行结构化. 通常有三种匹配方法: 第一种方法基于文本流的相关性匹配，即将主题本体的有向图转换为ASCII文本流，然后在文本流上进行两者之间的匹配计算被实现. 这种方法的优点是易于实现. 缺点是不可能用文本流来表达有向图的所有语义，从而降低了本体的原创语义表达优势.

　　第二种方法基于有向图的相关匹配. 原理是将目标文档转换为有向图，即使用自然语言理解工具分析文档的语法结构和语义内容，以建立类似本体论的文档内容图，以实现图形级的匹配计算. . 该方法的优点是充分发挥了本体论的优势，实现了语义层次上的关联性判断. 缺点是很难以图形方式记录文档[8]. 第三种方法是基于中间格式的相关匹配，即将有向图和文本流同时转换为第三方结构模式，并在通用结构模型的基础上实现相关匹配计算. . 关于基于本体的主题信息表示，德国卡尔斯鲁厄大学的马克·埃里格等人于2003年开发了一个实验系统CATYRPEL [9] [10]，该系统包括用户交互界面，Web采集器，文档预处理器，本体管理五个部分. 处理器和相关性计算模块. 该研究在主题信息的本体表示和基于本体文档相关性的计算中提出了具体的实现模型，并提出了四种搜索策略: 简单搜索（相关性计算仅比较实体本身），分类词汇搜索（上位词和上位词的附加比较）. 较低的实体），相关性搜索（增加实体之间的相关性比较），全属性搜索（上述方法的组合）. 3关联计算策略关联计算是主题信息采集的核心技术. 它不仅直接影响主题采集的质量和效率，而且还影响结果信息的显示顺序. 因此，在计算网页的相关性并等待对URL爬网的优先级进行排序时，需要集成多种启发式策略.

　　3.1启发式策略假设L是从网页P到网页C的链接（请参见图1），已经下载并解析了网页P，网页C是要下载的页面，则基于L，P和爬网主题Q在估计网页C的潜在主题相关性时，可以考虑的启发式策略包括: ①P和Q页的相关性； ②链接L和Q的锚文本的相关性； ③链接L和Q的相关性的周围文本； ④链接L与Q的URL超链接字符串的相关性； ⑤链接L与Q的同级链接的相关性； ⑥L的上下文与其他已知相关网页的上下文等的相似性. L链接P网页C网页图片1网页P指向网页C 3.2关联算法3主题关联算法可基于文本分为两种内容分类和图结构分析. 作为一种经典的关联算法，基于文本内容分类的主要思想是词频统计. 它需要预先训练分类器以生成分类知识库，然后使用该知识库来识别目标文档的主题. 用于文本分类的常用模型是布尔模型. ，向量空间模型，概率模型，其中最常用的是向量空间模型. Web图形分析方法对超链接结构进行分析和计算，并对文档内容的相关性进行加权，以提高相关性计算的准确性. 当前，最具影响力的算法包括PageRank，HITS，ARC，CLEVER等.

　　（1）PageRank. PageRank根据页面的链接输入和链接输出值计算网页的重要性，Google使用此算法. 原创的PageRank算法将整个网络用作计算域，其计算结果与任何用户主题都不相关，并且适合发现权威的网页，但不适合发现主题资源. 对于主题信息采集，应相应地修改PageRank算法，并将计算域从原创的整个网络更改为与该主题相关的文档集合. Teoma [11]采用这种方法. 它从与爬虫采集到的主题相关的网页中形成一个相关的页面社区（社区），然后计算该区域中该网页的PageRank，以便计算出的结果可用于指导后续主题资源的采集更有效. （2）HITS（超链接诱导主题搜索）. HITS通过权限级别和中心级别来区分网页的重要性，并通过对查询结果集执行相关计算来获取每个页面的HITS值. 尽管HITS还会根据查询结果集来计算网页的权限和中心性，但它仅基于前向链和后向链，并且不考虑文本内容，尤其是文本语义，因此使用HITS进行指导主题信息采集很容易导致对象污染（污染）或对象漂移（漂移）. [12]（3）ARC（自动资源编译）.

　　P. Raghavan在斯坦福大学创建了一个实验系统ARC [5]，它改进了HITS算法. 首先，ARC重新定义了网页的权限和中心性: 权限页（authority）指的是收录更多爬网主题的网页，而集线器页面（hub）指的是收录大量指向权威网页的链接的网页. 这些链接所指向的网页收录许多与主题相关的信息. 其次，ARC在估计要爬网的页面的相关性时开始考虑锚文本，后来人们将锚文本扩展到其上下文信息. （4）聪明[13]. 在主题信息搜索过程中，主题污染或漂移的主要原因来自页面（受欢迎）的重要性，而不是无关文档的重要性. 这些因素包括网站禁用，搜索词加权模式，链接加权模式以及相关的{mask2}之间的重复链接等. 为解决主题漂移问题，CLEVER改进了HITS算法. 在计算网页的权限和中心性时，它会保留相关的节点，并切断无关的节点；仅适用于一个网站或一位作者的多个超链接，保留其中一个具有最高权限，并删除其他超链接；在所有超链接中选择中心值最高的一个. 实验表明，CLEVER算法在防止话题漂移方面取得了良好的效果. 4主题爬网策略主题爬网策略是将主题搜索引擎与普通搜索引擎区分开的特征.

　　主题搜寻策略的目标是确保采集器获取尽可能多的与主题相关的信息，并下载尽可能少的与主题无关的信息，以提高发现率和覆盖范围. 主题信息. 在制定主题爬网策略时，应考虑各种因素，包括要爬网的URL选择策略，优先级排序策略，隧道技术和主题漂移响应策略. 4 4.1基本爬网策略通用搜索引擎一般采用广度优先的搜索策略，可以保证较高的覆盖率，但主题发现率不高. 主题搜索引擎采用主题优先级策略（最佳优先搜索），该策略根据主题相关性安排要爬网的所有URL，并首先对主题相关性最高的页面进行爬网，以确保采集器遵循主题相关性更高的路由[14]. 在主题采集器领域，该算法已成为评估相关技术的基准[15]. 但是，主题优先的爬网策略也有许多缺点. 针对这些缺点，已经提出了几种改进的算法. 4.1.1有限内存搜索（Limited Memory Search）[16]仅在要爬网的队列中保留具有最高相关性的前N个链接，并将第N + 1个及后续链接视为低相关或不相关页面. 此方法丢弃具有低相关性的URL，并减少系统占用的缓冲区空间. 同时，爬网范围仅限于高度相关的区域. 搜寻结果的主题非常相关. 缺点是它缺少通过低相关性页面进行的发现. 高度相关网页的机会.

　　4.1.2 BFSK搜索算法（波束搜索）[17]保留整个队列的爬网，但是一次从队列中删除前K个URL，并批量下载所有K页，确保同一页面区域以集中方式下载，避免了其他区域中的页面主题漂移所影响. [18] 4.1.3 Fish搜索算法（Fish-Search）Fish搜索算法的关键是根据用户的*敏*感*词*站点和查询关键字动态维护要爬网的URL的优先级队列. 优点是模式简单，可以实现动态搜索，但是因为它仅使用简单的字符串匹配来分配子节点的潜在相关性值，并且该值是离散的（0、0.5和1），从而导致分配值不能很好地表示子节点的相关性. 同时，要抓取的队列中的优先级差异太小，网页之间的优先级关系不明显. 南京大学的互联网数据采集系统[19]使用Fish算法. 4.1.4鲨鱼算法（Shark-Search）[20]. 响应于Fish算法中的二元判断，Shark算法引入了一种相关度量方法，其值在0到1之间，并且按比例将父节点的相关性转移到子节点；在计算子节点的潜在相关性时，应综合考虑指向子节点链接的锚文本，锚点周围的文本以及父节点的整个文本信息内容的相关性. 与Fish算法相比，Shark算法具有更高的准确度，可以更好地确保爬虫的正确搜索方向，提高相关信息的发现率.

　　4.2隧道技术如何通过低关联度区域并进入高关联度信息区域是主题爬网系统需要解决的重要问题. 酯[21]称其为隧道. 隧道技术的基本思想是: 当爬虫进入低相关性网页区域时，主题区域会扩展;当爬虫重新进入正常区域时，它将恢复为最初定义的主题区域. 具体的实现方法如下: ①主题词泛化，即当爬虫所在区域的页面主题相关性低于给定阈值时，采用主题词（或本体论）的上类别词. ，例如“微生物”，而不是原创的主题词“细菌”；当爬虫所在区域的页面相关性上升并且超过给定阈值时，将恢复最初指定的主题词，例如将“微生物”恢复为“细菌”. ②表达式概括. 对于形式为Φ= A question的问题表达式，将A∩Β的相关性f∩替换为A的相关性f（例如，AAΒ结果f

0

2020-08-30

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

案例研究：Web信息主题采集技术研究.pdf 7页

0 个评论

发起人

AI时代内容工厂

案例研究：Web信息主题采集技术研究.pdf 7页

0 个评论

发起人

相关问题