智能采集站(如何保证我们一直有效(网站能够正常打开)呢?)

优采云 发布时间: 2021-10-04 22:32

  智能采集站(如何保证我们一直有效(网站能够正常打开)呢?)

  人类的发展从猿到人。工业发展经历了石器时代、工业时代、智能工业的发展。

  采集 也经历了从单点到多点,再到分布式的发展。采集的源头也从10、100、1000增长到1W、50000、100000。这么多网站,如何保证一直有效(网站可以正常打开)?

  时代在进步,公司不断发展壮大。网站的内容不断丰富。每年和每个月都会添加新列,并删除旧列。我们如何确保我们的采集 列始终有效?

  今天结合我这几年做采集的经验和大家分享一下我的过程。

  第一:搭建源码系统

  由于我们是舆情监测服务,我们对采集的覆盖范围比较广,包括我们业务所在行业的所有网站(尽可能),以及一级和二级国家发布的媒体、各类党媒、纸媒、APP等,以及微博、微信、论坛等社交媒体网站。

  网站,栏目管理

  现在我们采集覆盖了网站的大约6W户,还在每天增加。这么大的网站怎么管理?这就是源系统的价值!

  我们统一管理需要采集的网站和网站下需要采集的频道或栏目。同时,部分网站媒体分类、行业分类、网站类型都在系统中进行管理。

  同时,为了提高网站和栏目的配置效率,我们支持直接将栏目的HTML源代码拷贝到系统中,然后自动分析栏目名称、栏目URL、正则表达式列下的数据和其他数据。通过这次优化,以前每个人每天大约分配20个网站,现在增加到100多个。

  关键词搜索

  数据采集,除了直接采集发布信息网站,另一种快速获取数据的方式是通过关键词采集在各大搜索引擎中搜索,如如:百度、搜狗、360等公司的搜索引擎。

  在信息源系统中,除了上述两种采集源外,还可以管理服务器,部署采集器等。因为采集数量众多,有数百的服务器,每台服务器上部署了三个、五个甚至十个或二十个爬虫。这些爬虫的上传、部署、启动、关闭也是非常耗时耗力的。充满活力的东西。通过对系统的统一管理,可以大大减少部署和运维的时间,降低很多成本。

  二:搭建网站监控系统

  这部分主要包括两部分:一是网站或列状态的监控(可以正常访问);二是信息规律性的监控;

  网站,栏目状态监控

  1:自动化

  一般情况下,是通过自动化的方式每两周或一个月检查一次所有网站。

  然后,如果返回状态码不是 200,则再次进行第二次和第三次检查。主要目的是防止网络问题或网站响应问题导致的监控失败,增加人工二次处理。时间;

  根据验证码,删除404、403等类型,502、未注册域名等,过一段时间再查。但是记得同步关闭这些网站 采集,否则采集的效率会大大降低。

  2:传递结果数据

  如果你有10W网站,每次都进行自动验证很费时间。为了提高效率,我们可以结合采集的结果进行处理。从采集的结果数据中,我们首先分析出过去一周哪些列没有采集的数据,然后自动验证这些网站,这样效率会提高很多。

  3:爬虫监测

  当然,我们也可以对爬虫数据进行标记,解析HTML源代码。如果网站没有响应,直接保存任务的ID,然后在源系统中进行标记,运维人员可以实时查看网站的状态并进行处理用它及时提高数据效率采集。

  同时,如果网站正常返回数据,但没有解析信息,则任务可能是常规异常,也可能是网站异常。需要进行第二次测试。

  正则表达式验证

  如上所述,在采集的时候,我们可以通过当前列或者网站记录数据是否按照现有的正则表达式解析,如果不是,则在源系统中对应标记在柱子上。

  同时需要建立一个服务,自动识别该列的正则表达式,每隔一段时间(例如30分钟)读取一次识别出的记录,自动识别其正则表达式,并同步到< @采集 同时排队。

  为了保证正则表达式的正确性,在自动识别并同步到采集队列后,如果仍然没有匹配,则输出信息。这时候系统需要提示运维人员进行人工分析。

  三:资料补充

  在舆情监测中,无论你覆盖的采集多广,总会有一些角落数据。你没有 采集,你可以看到。这时候问,为了提升客户体验,我们需要抓紧人工补录进系统,然后呢?

  那么首先要分析一下我们的网站是否配置好了,列是否配置正确,正则表达式是否正确。通过对这些步骤的检查,可以找到漏收的原因。根据原因,优化源码或完善采集器。

  数据补充可以及时减少客户的不满,同时可以改善信息来源和采集,使采集实现闭环。

  第四:自动化

  一:智能识别采集频率

  现在我们的网站和列采集的频率还是固定频率,这样一些信息更新比较低网站,或者列无效采集,会大大降低了采集的效率。结果,频繁的网站 或列采集 延迟,其中信息更新频繁,从而降低了数据的价值。

  我们现在根据每个网站或带有采集的列的数据发布时间分布,统计分析出一个更合适的采集频率,以尽量减少服务器资源的浪费,提高效率采集 的最大化数据的价值。

  第二:智能识别网站栏目

  我们目前采集的网站是6W左右,列70W左右。这6W个网站,每天都有很多网站的升级改版,大量的新栏目上架,老栏目下架。仅 3 人的运维团队就无法完成这些工作量。

  因此,我们根据6W网站中配置的列对它们进行训练,然后每周分析一次网站自动识别列。然后,过滤掉与我业务无关的栏目,最后进行人工抽查,最后发布到采集的采集队列。就这样,我们的运维团队从9人减少到了现在的3人。也可以保证采集的稳定性和效率。

  在大数据盛行的今天,所有分析的基础都是数据。

  随着人工智能时代的到来,人类能做的一切或多或少都会被机器取代。

  那么,30、 50年后,机器人能打败人类吗?哈哈.....

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线