汇总:3人团队,如何管理10万采集网站?(最全、最细解读)
优采云 发布时间: 2022-10-11 22:27汇总:3人团队,如何管理10万采集网站?(最全、最细解读)
人类的发展经历了猿到人的发展。工业发展经历了石器时代、工业时代和智能工业的发展。
采集 也经历了从单点到多点,再到分布式的发展。采集源的数量也从 10、100、1000 增加到 1W、50,000 和 100,000。这么多网站,怎么保证一直有效(网站可以正常打开)?
时代在进步,公司在不断发展壮大,网站的内容不断丰富。每年和每个月,都会有新的柱子上架,旧的柱子会下架。我们如何确保我们的 采集 列始终有效?
今天跟大家分享一下我这几年做采集的心得。
第一:搭建信息源系统
由于我们是做舆情监测服务的,所以我们的采集覆盖面比较广,包括我们经营所在行业的所有网站(尽可能的),以及各大媒体发布的一、二级各大媒体。国家、各类党媒、纸媒、APP等,以及微博、微信、论坛等社交媒体网站。
网站,栏目管理
现在我们采集覆盖网站大约6W个家庭,而且每天还在增加。我们应该如何管理这么大量的网站?这就是源系统的价值!
我们管理源系统中需要采集的网站以及这些网站下需要采集的通道或列。同时,部分网站媒体分类、行业分类、网站类型等均在系统中进行管理。
同时为了提高网站、栏目等的配置效率,我们支持直接将栏目的HTML源码复制到系统中,然后自动分析栏目名称、栏目网址、列下数据和其他数据的正则表达式。通过这样的优化,过去每人每天的网站数量已经增加到100多个。
关键词搜索
数据采集,除了直接采集发布信息网站,另一种快速获取数据的方式是通过关键词采集在各大搜索引擎中搜索,如:百度、搜狗、360等搜索引擎。
在源系统中,除了管理上述两类采集源外,还可以管理服务器,部署采集器等。因为在大批量的采集中,有上百个的服务器,每台服务器上部署三五个甚至十个或二十个爬虫。这些爬虫的上传、部署、启动、关闭也是耗时耗力的。能源的事。通过对系统的统一管理,可以大大减少部署、运维时间,降低很多成本。
二:搭建网站监控系统
这部分主要包括两部分:一是网站或者列状态的监控(可以正常访问);二是定期信息的监测;
网站,列状态监控
1:自动化
通常,所有 网站 都会以自动方式每两周或一个月检查一次。
然后,如果返回状态码不是 200,则再次进行第二次和第三次检查。主要目的是防止网络问题或网站响应问题导致的监控失败,增加人工二次处理。时间;
根据验证码,删除404、403等类型,502,域名未备案,过一段时间再验证其他类型。但记得要同步关闭这些网站的采集,否则会大大降低采集的效率。
2:传递结果数据
如果你有10W的网站,每次进行自动验证也是很费时间的。为了提高效率,我们可以结合采集的结果进行处理。从采集的结果数据,我们先分析一下上周哪些列没有收到采集数据,然后自动校验这些网站,效率会大大提高。
3:爬虫监控
当然,我们也可以在解析HTML源码的时候标记爬虫数据。如果网站没有响应,直接保存任务的ID,然后在源系统中标记,运维人员可以实时看到网站的状态>,及时处理,提高数据效率采集。
同时,如果网站正常返回数据,但没有解析出任何信息,则该任务可能是常规异常,也可能是网站异常。需要进行第二次测试。
正则表达式的验证
如前所述,在采集的时候,我们可以通过当前列或者网站记录数据是否按照已有的正则表达式解析,如果不是,则标记源系统中的对应数据列上。
同时需要建立一个自动识别列正则表达式的服务,每隔一段时间(比如30分钟)读取一次识别的记录,自动识别其正则表达式,并同步到采集 队列。
为了保证正确获取正则表达式,自动识别后同步到采集队列,如果信息仍然不匹配。此时系统需要提示运维人员进行人工分析。
三:数据补充记录
在舆情监测中,无论你对采集的覆盖范围有多大,角落里总会有数据。如果你没有 采集,你可以看到。这时候,为了提升客户体验,我们需要密切关注人工对系统的补充录音,然后呢?
那么首先要分析一下我们的网站是否配置,列是否配置正确,正则表达式是否正确。通过检查这些步骤,我们就能找到错过挖矿的原因。根据原因优化源或改进采集器。
数据补充记录可以及时减少客户的不满,同时可以改善信息来源和采集,使采集实现闭环。
第四:自动化
第一:智能识别采集的频率
目前我们的网站和列采集的频率还是固定频率,所以一些更新信息比较少的网站,或者无效的列采集,会大大减少采集的效率>。这导致网站或列采集信息更新频繁,数据的价值降低。
我们现在根据每个网站或采集列的数据分布情况,对采集的频率进行更合适的统计分析,尽量减少服务器资源的浪费,提高采集 效率和最大化数据价值。
二:智能识别网站栏目
我们现在的采集的网站有6W左右,列有70W左右。这6W的网站中,每天都有很多网站的升级和改版,大量新柱上架,旧柱下架。一个 3 人的运维团队不可能完成这些工作量。
因此,我们根据 6W 网站 中配置的列进行训练,然后每周分析一次 网站 以自动识别列。然后,过滤掉与我的业务无关的列,最后进行人工抽检,最后发布到采集队列中供采集使用。就这样,我们的运维团队从9人减少到了现在的3人。并且还可以保证采集的稳定性和效率。
在大数据盛行的今天,一切分析的基础都是数据。
随着人工智能时代的到来,人类能做的一切,或多或少都可以被机器取代。
那么,30、50 年后,机器人能战胜人类吗?哈哈.....
行业动态:收藏丨星环科技:自动驾驶数据采集相关的数据安全合规建设
它是一种基于地理信息的在线社交网络模型矩阵内容新媒体。定位为“技术、经验、项目、学术、人才、资金、交流与合作”的服务型平台。
传联科技致力于打造企业级大数据基础软件,围绕数据全生命周期为企业提供基础软件和支持,构建明天的数据世界。
方法一:数据换数据,将崔老师的手系统添加到微信,提供与主题相关的文档即可获取文档(每天仅一份文档)。
方式二:加入的会员可以在星球搜索关键词,或者输入网址,微信扫码登录,直接无限下载文件。
方法三:转发公众号文章并发送到朋友圈(可见,未删除);或者发个微信群(最少30人,行业相关),截图发到崔老师的手系统,告知素材名称(仅限一天)。一)。