垂直爬虫无法直接移植到其他网站程序设计的局限性
优采云 发布时间: 2021-07-12 06:01垂直爬虫无法直接移植到其他网站程序设计的局限性
[摘要]:由于互联网的快速发展和普及,互联网已经成为一个非常重要的信息来源。并且越来越多的网民越来越渴望在浩瀚的互联网中高效、准确地找到目标主题页面,实现从主题页面中定制化的实体信息抽取。在传统搜索引擎领域,主题爬虫和垂直爬虫是比较流行的获取特定主题和特定网站数据的方法。然而,主题爬虫更注重对主题页面的搜索,往往忽略对页面信息准确提取的深入研究。垂直爬虫虽然可以实现对一个网站的精准信息提取,但其主要缺点之一是可移植性差,无法实现对不同网站的通用抓取,自动化程度低。经典的WEB信息抽取方法虽然在各个自适应领域都取得了一定的成果,但也存在适用范围的局限性和抽取算法效率低的问题;同时,这些方法基本上只针对目标WEB页面实体。对信息抽取的研究忽略了对目标页面搜索策略的研究;因此,现有的经典WEB实体信息抽取方法在应用和研究范围上都有其局限性。本文针对垂直爬虫不能直接移植到其他网站,程序设计需要大量人工干预的弊端,以及经典WEB实体信息抽取方法的局限性,提出了一种高效且高度便携的WEB实体信息提取算法,提取算法的研究包括主题页面搜索定位和页面信息提取两部分:(1)在主题页面搜索定位部分,一种有监督的广度优先网页加权搜索策略提出自动识别主题目标和目录页面URL,利用URL聚类生成URL正则表达式过滤器,利用正则表达式过滤器大范围搜索相关页面,同时辅以隧道技术基于网页权重计算实现最佳监督优先级实验证明搜索策略设计本文所介绍的内容可以确保爬虫能够完整、快速、准确地定位和下载与主题相关的页面,并且具有较高的搜索效率和准确性。
(2)页面信息抽取部分,结合多种经典WEB信息抽取技术的优点,提出一种基于配置信息自动生成数据分析路径模板的方法。基于配置信息,爬虫可实现定制化WEB实体信息数据的准确完整提取,自动生成数据分析路径模板,充分保证信息提取的效率和准确性,提高自动化程度。利用WEB的原理本文提出的实体信息提取算法,本文设计实现了一个通用的垂直爬虫系统,该系统的实现是WEB数据采集器的具体应用,该系统可以实现高效、快速、准确的定制数据方便的配置信息后抓取不同的网站,高可移植性和stro*敏*感*词*性。同时也证明了本文提出的WEB实体信息提取算法是合理有效的,具有较高的应用价值,也丰富了WEB信息提取领域的理论和应用研究。