网页采集器的自动识别算法(经典的WEB信息提取实体信息抽取方法的局限性方法)
优采云 发布时间: 2021-11-30 07:13网页采集器的自动识别算法(经典的WEB信息提取实体信息抽取方法的局限性方法)
【摘要】:随着互联网的快速发展和普及,互联网已成为一个非常重要的信息来源。并且越来越多的网民越来越渴望在浩瀚的互联网中高效、准确地找到目标主题页面,实现从主题页面中定制化的实体信息抽取。在传统搜索引擎领域,主题爬虫和垂直爬虫是比较流行的获取特定主题和特定网站数据的方法,但主题爬虫更注重主题页面的搜索,往往忽略深度提取页面信息。经研究,垂直爬虫虽然可以实现对一个网站的精准信息抽取,但其主要缺点是可移植性差,无法实现对不同网站的通用抓取,和低自动化。经典的WEB信息提取方法虽然在各种自适应领域取得了一定的成果,但也存在自适应范围的局限性和提取算法效率低下的问题;同时,这些方法基本上只针对目标WEB页面实体。对信息抽取的研究忽略了对目标页面搜索策略的研究;因此,现有的经典WEB实体信息抽取方法在应用和研究范围上都有其局限性。本文针对垂直爬虫无法直接移植到其他网站且程序设计需要大量人工干预的弊端,以及经典WEB实体信息抽取方法的局限性,
方便的配置信息后,快速准确定制不同的网站 数据爬取具有高可移植性和强通用性。同时也证明了本文提出的WEB实体信息提取算法的合理性和有效性。具有很高的应用价值,丰富了WEB信息抽取领域的理论和理论。应用研究。