自动信息采集系统的设计与实现

优采云 发布时间: 2020-08-05 01:04

  [摘要]: 在当今信息和数据爆炸时代,可以对Internet上的数据信息进行数据挖掘,以提取有价值的信息并预测某些事件的发生. 现代主流搜索引擎(例如Google,百度等)将在全球范围内部署自己的信息采集系统(搜寻器系统). 在信息采集系统中,最重要的部分是如何解析网页并提取感兴趣的数据和信息. 在一般的信息采集系统中,有必要针对网站的不同模块或不同网站定制信息提取规则,特别是在网页结构相似的情况下,会消耗大量的人力资源. 自动信息采集可以解决此问题. 现有的自动页面解析算法通常使用模板生成或机器学习来自动提取信息. 最常见的算法包括试探法,树对齐和模板生成方法,例如RoadRunner. 这些现有算法的问题在于,所提取的信息包含噪声信息以及数据提取时间过长的缺点. 为了解决上述问题,本文的主要研究内容体现在三个方面. 首先,为解决人工干预和网络信息自动提取中噪声信息比例高的问题,提出了一种基于标签网页主体的三叉树解决方案. 经过大量分析,确定了可以正确描述网页文本分布的标签,确定了标签的阈值,最后结合三叉树信息提取模型,制定了统一的信息提取规则. 实验表明,在时间和噪声信息比例上,信息提取算法的性能优于同类提取算法. 其次,为了能够更好地适应自动信息提取,有必要解决网页结构的分类问题. 当前,最常见的网页结构分类算法是基于DOM树的编辑距离,但是该算法最突出的缺点是耗时过多. 结合现有主流站点之间Web页面模板应用的可能性较低,以及同一站点不同区域可能存在的差异,提出了一种基于Web页面标签属性的字符串编辑距离的Web页面结构相似性判断方法. 实验表明,该算法确定网页相似度的时间约为DOM树编辑距离方法的3/4. 第三,设计一个自动化的信息采集系统. 在系统实现过程中,为了加快信息的采集,采用了分布式架构. 为了实现搜寻器的动态配置,ZooKeeper被用作配置中心. 底层数据持久性使用MySQL数据库. 该系统的实现避免了人工信息提取规则.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线