智能采集系统(移动应用商店网页结构特点,应用信息采集流程及所用技术)
优采云 发布时间: 2022-04-08 06:17智能采集系统(移动应用商店网页结构特点,应用信息采集流程及所用技术)
【摘要】 随着移动互联网的飞速发展,移动互联网进入大数据时代,对移动应用数据分析的需求越来越明显,对移动应用信息化提出了更高的要求采集。由于应用程序数量庞大,移动应用商店仅在静态网页中显示部分超链接可访问的应用程序信息,而将大量信息隐藏在查询表单后面的 Deep Web 中,导致现有信息采集 策略无法获取完整的应用信息。目前,针对这一问题,一些研究人员已经将Deep Web采集技术应用于移动应用商店,但是没有考虑到移动应用商店网站的特点,导致其采集的应用信息覆盖效率和效率还是比较低的。同时具有和普通网页一样的时效性,即网页的结构会发生无规律的变化,从而导致爬虫失效。为解决上述问题,本文研究信息采集技术和大量主流移动应用商店,完成以下工作: 搜索匹配机制总结应用信息采集流程和不同应用商店中使用的技术。提出通过构建规则库将添加和维护特定应用商店转化为规则库的运行,从而提高系统的可扩展性和可维护性;搜索采集方法提取一定比例的TF-IDF算法计算出的应用名称+应用描述信息中的高权重词作为搜索关键词构造应用的搜索形式store,使其隐藏在应用商店中。暴露Deep Web中的应用信息,结合Surface Web信息采集技术采集这些应用信息,提高采集应用信息的覆盖率和效率;3、分析信息采集 系统故障原因和故障影响,提出了一种基于运行中和运行后数据统计分析的系统故障预警策略。通过分析访问失败网页的百分比、提取失败的字段百分比、成功访问网页的百分比与历史数据对比,以及成功提取的字段百分比是否超过阈值,判断系统是否无效,并发出相应的警报和预警,从而提高系统的时效性。性能和维护。4、为移动应用商店设计智能信息采集系统,通过规则构造商店信息采集代码,采集整理Surface Web应用信息后,继续采集@ >