在线抓取网页(中华英才网数据自动聚合系统正是由此而生|案例分析案例 )

优采云 发布时间: 2021-10-06 15:25

  在线抓取网页(中华英才网数据自动聚合系统正是由此而生|案例分析案例

)

  1.简介

  项目背景

  互联网时代,信息海阔天空。甚至我们获取信息的方式也发生了变化:从传统的翻书到查字典,再到通过搜索引擎搜索。我们已经从信息匮乏的时代走到了信息丰富的今天。

  今天,困扰我们的问题不是信息太少,而是太多,太多让你无法分辨或选择。因此,提供一种能够自动抓取互联网上的数据,并对其进行自动排序和分析的工具是非常重要的。

  我们通过传统搜索引擎获取的信息通常以网页的形式展示。这样的信息人工阅读自然友好,但计算机很难处理和重复使用。而且检索到的信息量太大,我们很难从海量的检索结果中提取出我们最需要的信息。

  本方案所涉及的数据聚合系统由此诞生。系统按照一定的规则抓取指定的网站中的信息,对抓取的结果进行分析整理,保存在结构化的数据库中,为数据的复用做准备。

  中华英才网是知名的大型招聘类网站。为了全面细致地了解招聘市场的整体能力,帮助中华英才网全面了解其他竞争对手的情况,为市场人员提供潜在客户信息,我们提供此解决方案。

  使命和宗旨

  捷软与中华英才网合作开发数据自动聚合系统。通过该系统,从互联网上获取公开的信息资源,对信息进行分析、加工和再加工,为中华英才资源市场部提供准确的市场信息。

  2.方案设计原则

  我们在设计系统方案时充分考虑了以下两个原则,并将始终贯穿于设计和开发过程:

  系统精度

  系统需要从互联网庞大的信息海洋中获取信息。如何保证它抓取的信息的准确性和有效性,是评估整个系统价值的关键因素。因此,除了对抓取到的信息进行整理和分析,当目标网站的内容和格式发生变化时,智能感知、及时通知和调整也是保证系统准确性的重要手段。.

  系统灵活性

  该系统虽然是为少数用户提供服务并监控固定站点的内部系统,但仍需具备一定的灵活性和较强的可扩展性。

  因为目标站点的结构、层次和格式在不断变化;并且系统需要抓取的目标站点也在不断调整;因此,系统必须能够适应这种变化。当爬取目标发生变化时,系统可以通过简单的设置或调整,继续完成数据聚合任务。

  3.解决方案:

  1.功能*敏*感*词*

  

  2.定义格式并准备脚本

  首先,我们需要根据需要爬取的目标网站的特点,编写一个爬取脚本(格式)。包括:

  目标网站的URL路径;

  使用什么方法获取数据?可以使用模拟查询功能的方法(手动检测查询页面提交的参数并模拟提交);也可以从头到尾遍历序列号(需要找到当前最大的序列号值);

  根据每个网站的特点编译(标准、脚本);

  3.获取数据

  系统提供的rake程序会根据预定义的XML格式执行数据采集任务。为了防止目标网站的检测程序发现它,我们建议直接保存捕获的页面,然后对其进行处理。而不是在获取信息后立即处理信息,对于提高抓取和保留第一手信息的效率非常有价值。

  通过定义的脚本模拟登录;

  对于下拉列表中的查询项,循环遍历列表中的每个值。并对获取查询结果的页面进行模拟翻页操作,获取所有查询结果;

  如果作业数据库或业务目录数据库使用自增整数作为其唯一ID,那么我们可以找到一种方法来获取最大值,然后通过遍历的方式将其全部抓取;

  定时执行爬取操作,增量保存抓取到的数据;

  4.简单分析

  采集接收到的数据在外网的服务器上简单的分析处理。内容主要包括:

  结构化数据:对获取的数据进行结构化,以方便以后的数据传输,也方便下一步的复查和故障排除任务。

  消除重复;使用模拟查询方法遍历时,系统捕获的数据必须是重复的。由于重复的数据会造成重复的分析和处理过程,不仅占用系统资源,使系统的处理效率低下,而且给系统带来了大量的垃圾数据。为了避免大量重复和冗余的数据,我们要做的第一个处理工作就是对重复项进行整理。

  消除错误;由于目标站点的内容、结构和格式的调整,系统将无法捕获或捕获大量错误信息。在排除这些误报信息的同时,我们通过数据错误率的判断,可以获得目标站点是否发生变化的信息,并及时向系统发出预警通知。

  5.数据发回内部

  系统通过Web Service将处理后的数据发送回企业。唯一需要考虑的是如何实现增量更新,否则每天有大量数据更新到本地数据库,会造成网络拥塞。

  6.数据分析

  这里的数据分析与上述在远程服务器上进行的分析操作不同。后者是为了简单有效的数据过滤,防止数据冗余和造成处理速度缓慢或网络拥塞。前者为日后人工确认提供便利,有效帮助市场人员进行快速人工分拣。详情如下:

  l 按地区区分;

  l 按准确程度划分;帮助用户优先考虑哪些信息更有效;

  l 按发帖数划分;

  l 记录各公司发布的职位变动过程;

  7.手动确认

  这部分主要关注两个方面:

  1、提供友好的人机界面,允许人工确认这些信息;

  2、对比英才网的职位数据库,提取差异进行人工确认:

  通过与市场人员的沟通交流,了解他们关心的信息,按照他们期望的方式提供数据,完*敏*感*词*工确认。

  8.统计汇总

  汇总统计功能也是数据汇总系统的重要组成部分,将提供以下几类统计汇总功能:

  以网站为单位,统计每个网站日新增的公司、职位等信息;

  跟踪大型企业,统计其在每个网站上发布的信息帖记录;

  以时间为单位,按日、周、月对各种信息进行统计;

  按地区、公司、岗位进行统计;

  其他;

  仿真统计汇总界面

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线