网页数据抓取(中华英才网——数据聚合系统的设计与方案设计)

优采云 发布时间: 2021-09-22 21:10

  网页数据抓取(中华英才网——数据聚合系统的设计与方案设计)

  1.导言

  项目背景

  在互联网时代,信息就像大海一样无边无际。甚至我们获取信息的方式也发生了变化:从传统的通过书本查找字典的方式,到通过搜索引擎进行搜索。我们突然从信息匮乏的时代来到了今天信息极其丰富的时代

  今天,困扰我们的问题不是信息太少,而是太多,以至于你无法区分和选择。因此,提供一种能够自动捕获互联网上的数据、自动对数据进行排序和分析的工具具有重要意义

  我们通过传统搜索引擎获得的信息通常以网页的形式显示。这些信息是自然和友好的手动读取,但计算机很难处理和重用。而且,检索的信息量太大,很难从大量的检索结果中提取出我们最需要的信息

  该方案中涉及的数据聚合系统就是由此产生的。根据一定的规则,系统在指定的网站数据库中捕获信息,分析和整理捕获的结果,并将其保存在结构化数据库中,为数据的重用提供准备

  中国人才网是一个著名的大型招聘类别网站. 为了全面、详细地了解招聘市场的整体能力,帮助中国人才网全面了解其他竞争对手的情况,为市场人员提供潜在客户信息,特提供此解决方案

  使命和宗旨

  杰软与中国人才网合作开发了一个自动数据聚合系统,从互联网上获取开放的信息资源,对信息进行分析、处理和再处理,为中国人才网营销部提供准确的市场信息资源

  2.方案设计原则

  在设计系统方案时,我们充分考虑以下两个原则,并将贯穿设计开发过程:

  系统的准确性

  系统需要从互联网巨大的信息海洋中获取信息。如何确保所获取信息的准确性和有效性是评估整个系统价值的关键因素。因此,除了对捕获的信息进行整理和分析外,当目标网站的内容和格式发生变化时,智能感知、及时通知和调整也是确保系统准确性的重要手段

  系统灵活性

  虽然系统是为少数用户提供服务、监控固定站点的内部系统,但仍需要具有一定的灵活性和较强的可扩展性

  因为目标站点的结构、级别和格式在不断变化;系统需要捕获的目标站点也在不断调整;因此,系统必须能够适应这种变化。当捕获的目标发生变化时,系统可以通过简单的设置或调整继续完成数据聚合任务

  3.溶液:

  1.功能*敏*感*词*

  

  2.定义格式并准备脚本

  首先,我们需要根据要捕获的目标网站的特性准备捕获脚本(格式)。包括:

  目标网站的URL路径@

  使用什么方法获取数据?可以采用模拟查询功能的方式(手动检测查询页面提交的参数,模拟提交);还可以从头到尾遍历序列号(需要找到当前最大序列号值)

  根据每个网站(标准、脚本)的特点进行准备

  3.grab数据

  系统提供的rake子例程将根据预定义的XML格式执行数据捕获任务。为了防止目标网站的检测程序发现,我们建议直接保存捕获的页面,然后进行处理。与其在获得信息后立即对其进行处理,不如提高获取和保留第一手数据的效率

  通过定义的脚本模拟登录

  对于下拉列表中的查询项,循环浏览列表中的每个值。并用查询结果在页面上模拟翻页操作,得到所有查询结果

  如果位置数据库或企业目录数据库使用自增整数作为其唯一ID,我们可以找到一种方法来获取其最大值,然后通过遍历将其全部捕获

  定期执行抓取操作,并增量保存捕获的数据

  4.简单分析

  对外网服务器上采集接收到的数据进行简单分析处理,主要包括:

  结构化数据:获取的数据经过结构化处理,以便于将来的数据传输和下一步的重复和错误消除检查

  消除重复;当采用模拟查询的方法进行遍历时,系统捕获的数据将被重复。由于重复的数据会导致重复的分析和处理过程,不仅占用了系统的资源,降低了系统的处理效率,而且给系统带来了大量的垃圾数据。为了避免出现大量重复和冗余数据,我们首先要做的处理工作是消除重复

  消除错误;由于目标站点内容、结构和格式的调整,系统将无法捕获或捕获大量错误信息。在排除这些错误捕获信息的同时,通过对数据错误率的判断,可以获得目标站点是否发生了变化的信息,并及时向系统发送预警通知

  5.内部返回的数据

  系统通过web服务将处理后的数据发送回企业。唯一需要考虑的是如何实现增量更新,否则每天将大量的数据更新到本地数据库,这将导致网络拥塞

  。

  6.数据分析

  此处的数据分析不同于上述远程服务器上的分析操作。后者是简单有效地过滤数据,防止数据冗余,导致处理速度慢或网络拥塞等问题;前者为以后人工确认提供方便,有效帮助市场人员进行快速人工分拣。详情如下:

  L按地区区分

  L按精度划分;帮助用户确定哪些信息更有效的优先级

  L根据发布的职位数量进行划分

  L记录各企业下发岗位的变动过程

  7.手动确认

  这一部分着重于两个方面:

  1、为手动确认这些信息提供友好的人机界面

  2、与人才网络的职位数据库进行比较,提取差异部分进行人工确认:

  通过与营销人员的沟通了解他们关心的信息,以他们期望的方式提供数据,并完成手动确认

  8.统计摘要

  摘要统计功能也是数据聚合系统的重要组成部分。系统将提供以下类型的统计汇总功能:

  以网站为单位,统计每个网站日新增企业、岗位等信息

  跟踪大型企业,统计每个网站站点发布的信息和职位记录

  按时间单位按天、周、月统计汇总各种信息

  按地区、企业、岗位进行统计汇总

  其他

  模拟统计摘要界面

  

  [参考]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线