信用评估数据智能采集系统的设计与实现
优采云 发布时间: 2020-08-07 13:40[摘要]: 信用评估数据智能采集系统旨在自动采集,处理和存储Internet上用于信用评估的复杂多样的数据,并为客户提供查询和分析功能. 为建立客观合理的信用评估体系提供数据支持和保障,为信用评估业务的客户提供数据服务,挖掘数据的潜在价值. 因此,有必要开发一种用于信用评估数据的智能采集系统. 本文的主要贡献包括: 1)本文设计并开发了一种基于分布式Web爬虫技术和Web页面分析技术的数据采集子系统. 通过Internet爬行以获取国家*敏*感*词*数据和国家司法处罚数据. 2)为了对不同Internet网站的数据进行爬网,使用了不同的Web爬网技术. WebBrowser基于浏览器的插件方法; json格式的http请求方法. 3)由于Internet上采集的数据是非结构化的文本数据,因此本文设计并开发了一种基于模式匹配,N-Gram汉语分词技术和数据集成技术的数据处理子系统. 通过对互联网上采集的非结构化数据的中文分词,可以提取,清除多源异类数据并将其集成到可用的结构化数据中. 4)为了方便数据用户查询,分析和维护数据,本文设计开发了一个数据分析子系统. 提供按数据类型,数据源部门,数据源省等分类的信用评估数据,分类查询和统计数据,并在友好的可视界面中显示. 本文设计开发的信用评价数据智能采集系统已成功应用于风险评估系统的重要子系统之一.