面向联通应用商店的智能信息采集系统的研究与实现
优采云 发布时间: 2020-08-11 13:42【摘要】:随着联通互联网的快速发展,移动互联网步入大数据时代,移动应用数据剖析需求日益显著,从而对联通应用信息采集提出了更高的要求。由于应用数目过分庞大,移动应用商店只将部份应用信息展示在以超链接可以抵达的静态网页中,而将大量信息隐藏在查询表单后的Deep Web中,导致已有的信息采集策略未能获取到较全的应用信息。目前,针对这一问题已有研究者将Deep Web采集技术应用到联通应用商店,但未考虑联通应用商店网站自身特征,导致其采集的应用信息覆盖率和效率较一直较低。同时和通常网页一样具有时效性,即网页结构会不定期地改变,导致爬虫失效。为了解决以上问题,本文对信息采集技术和大量主流联通应用商店进行了研究,完成了以下工作:1、分析了联通应用商店网页结构特征,应用信息分布情况,研究了搜素匹配机制,总结了不同应用商店应用信息采集流程及所用技术。提出通过建立规则库,把添加和维护某一具体应用商店化为对规则库的操作,从而提升系统的可扩展性和维护性;2、提出一种基于应用类别关键词搜索的采集方法,提取一定比列的通过TF-IDF算法估算的应用名称+应用描述信息中的高权重词作为搜索关键词用以构造应用商店的搜索表单,使隐藏于Deep Web中的应用信息曝露下来,再结合Surface Web信息采集技术采集这些应用信息,提高了采集应用信息的覆盖率和效率;3、分析信息采集系统失效缘由以及失效影响,提出基于运行时、运行后的数据统计剖析的系统失效预警策略。通过剖析系统运行时失败访问网页比列、失败抽取数组比列以及与历史数据对比的成功访问网页比列、成功抽取数组比列是否超出阀值,判断系统是否失效,发出相应的警报货预警,从而提升系统的时效性和维护性。4、设计了一个面向联通应用商店的智能信息采集系统,通过规则构造商店信息采集代码,采集完Surface Web应用信息后,继续采集Deep Web应用信息,并通过数据统计对系统进行报案;5、使用python编程语言、Scrapy网路爬虫框架等实现了面向联通应用商店的智能信息采集系统,并进行了实验,对面前主流的应用商店进行了信息采集。