汇总:3人团队,如何管理10万采集网站?

优采云 发布时间: 2022-11-17 07:56

  汇总:3人团队,如何管理10万采集网站?

  人类的发展经历了从猿到人的发展。工业发展经历了石器时代、工业时代、智能工业的发展。

  采集也经历了从单点到多点,再到分布式的发展。采集源也从10、100、1000发展到1W、5万、10万。那么有这么多网站,如何保证它们一直有效(网站可以正常打开)?

  时代在进步,公司在不断壮大,网站的内容也在不断丰富。每年每个月都会有新的专栏上架,也会有一些旧的专栏下架。我们如何确保我们的 采集 专栏始终有效?

  今天,我将根据过去几年在采集的经历,与大家分享我的过程。

  第一:搭建源码系统

  由于我们提供舆情监测服务,所以我们对采集的覆盖面比较广,包括了我们业务所在行业的所有网站(尽可能完整),以及一二级主要媒体国家发布的各类党媒、纸媒、APP等,以及微博、微信、论坛等社交媒体网站。

  网站,栏目管理

  现在我们 采集 覆盖了大约 60,000 个 网站 家庭,而且他们每天都在增加。我们应该如何管理如此大量的网站?这就是源系统的价值所在!

  我们管理源系统中需要采集的网站,以及这些网站下需要采集的频道或栏目。同时,部分网站媒体分类、行业分类、网站类型等在系统中统一管理。

  同时,为了提高网站、栏目等配置效率,我们支持直接将栏目HTML源码复制到系统中,然后自动分析栏目名称、栏目等数据列下数据的URL、正则表达式。通过这样的优化,以前每人一天配置20个左右网站,现在增加到100多个。

  关键词搜索

  数据采集,除了直接采集发布信息网站,另一种快速获取数据的方法是通过关键词在各大搜索引擎搜索采集,比如as:百度、搜狗、360等公司的搜索引擎。

  在源系统中,除了可以管理以上两类采集源,还可以管理服务器,部署采集器等。因为采集@大批量有上百台服务器>,每台服务器上部署三到五个,甚至十个、二十个爬虫。能量的东西。通过系统的统一管理,可以大大减少部署和运维的时间,减少很多成本。

  第二:搭建网站监控系统

  

  这部分主要包括两部分:一是网站或列状态的监控(可以正常访问);二是定期信息监测;

  网站,列状态监控

  1:自动化

  通常,所有 网站 通过自动化每两周或一个月检查一次。

  然后,如果返回的状态码不是200,再做第二次和第三次检查。主要目的是防止因网络问题或网站响应问题导致监控失败,增加人工二次处理时间;

  根据验证码,删除404、403等类型,502、域名未备案等类型,过一段时间再验证。但是记得同步关闭这些网站的采集,否则采集的效率会大大降低。

  2:传递结果数据

  如果你有100,000个网站,每次自动验证也是一个耗时的工作。为了提高效率,我们可以结合采集的结果进行处理。我们首先从采集的结果中分析上周哪些列没有采集数据,然后自动验证这些网站,效率会大大提高。

  3:爬虫监控

  当然,我们也可以标记爬虫数据,解析HTML源码。如果网站没有响应,直接保存任务的ID,然后在源系统中进行标记,运维人员可以实时看到网站的状态,在处理中时间,并提高数据采集的效率。

  同时,如果网站正常返回数据,但没有解析出任何信息,则任务可能是常规异常,也可能是网站异常。需要进行第二次测试。

  正则表达式的验证

  上面提到,在采集中,我们可以记录当前列或网站是否根据已有的正则表达式解析数据,如果没有,则在源系统中相应的信息标记在该列上。

  同时需要建立自动识别列正则表达式的服务,每隔一段时间(比如30分钟)读取标记的记录,自动识别其正则表达式,并同步到采集 同时排队。

  为了保证正确获取正则表达式,自动识别同步到采集队列后,如果仍然没有匹配信息。这时,系统需要提示运维人员进行人工分析。

  

  三:数据补录

  在舆情监测中,无论采集的覆盖范围有多大,这样的角落总会有数据。如果你没有采集,你可以看到它。这时候,为了提升客户体验,我们需要非常重视人工对系统进行补录,然后呢?

  那么首先要分析我们的网站是否配置,列配置是否正确,正则表达式是否正确。通过这几个步骤的检查,就会找到漏挖的原因。根据原因,优化源或细化采集器。

  补充数据记录可以及时减少客户的不满,同时完善信息来源和采集,让采集实现闭环。

  第四:自动化

  第一:智能识别采集频率

  现在我们网站和列采集的频率还是固定的,所以一些信息更新比较少的网站,或者列无效的采集会大大减少采集效率。这会导致频繁更新的 网站 或列 采集 出现延迟,从而降低数据的价值。

  我们现在正在根据每个网站或column和采集数据的发布时间分布,统计分析一个更合适的采集频率,以尽量减少服务器资源的浪费,提高采集 最大化数据价值的效率。

  第二:智能识别网站专栏

  我们现在的采集网站有6W左右,专栏有70W左右。这6W个网站,每天都有很多网站升级改版,大量新栏目上架,旧栏目下架。仅靠三人运维团队是不可能完成这些工作量的。

  因此,我们根据这6W 网站中配置的列进行训练,然后每周分析一次网站,自动识别列。然后,过滤掉与我业务无关的列,最后进行人工抽检,最后发布到采集队列中供采集使用。这样一来,我们的运维团队就从原来的9人减少到了现在的3人。并且还可以保证采集的稳定性和效率。

  在大数据盛行的今天,一切分析的基础都是数据。

  随着人工智能时代的到来,凡是人能做的事情,或多或少都可以被机器代替。

  那么,30 年或 50 年后,机器人能打败人类吗?哈哈.....

  官方数据:千梦网创108计第13计:全自动采集更新影视站,被动营收单月3000+

  千梦网第108计划第13计划:影视站全自动采集更新,单月被动收入3000+

  一、课程来源

  在百度搜索显示的结果中,我们经常可以看到很多第三方官方的电影网站,而在这些网站中有​​很多电影需要开通VIP才能在其他平台观看或者是一部电视节目。

  这些平台往往因为一些热门或冷门的资源而排在百度的前列。

  这些资源在 网站 上自动更新 采集,无需任何手动维护。

  那么今天就带大家制作一个和图片一样风格的视频网站。

  

  2.课程实践

  1.购买香港VPS主机

  其实,网站是否需要备案与使用什么后缀域名没有关系,而是与我们的网站所在服务器所在的区域有关。

  如果我们的网站服务器在香港,那么我们的域名就不需要备案了。如果我们想把它放在更快的国内服务器上,我们的网站需要备案。

  这里我们选择香港的主机。

  2.购买域名

  直接上阿里云买个小域名几块钱就可以了,因为后期网站会靠长尾关键词带动整个流量,所以没必要购买顶级域名。

  3.源码上传安装

  

  全自动源码我会放在课程文件里,供大家交流学习。按照我在课程中讲解的操作,10分钟你就可以把自己的全自动采集视频网站制作出来。

  三、课程核心

  其实做网站只是第一步,真正的操作才是背后的关键。如何找到精准流量变现、二次变现、三次变现,是我们整个网站课程和重点的核心。

  当然网站在课程中的整体布局,广告位的布局,页面栏目的设置也很重要。我们在课程中为大家带来了非常详细的教学,跟着千萌一起来做,就可以做出同款的商业运营网站。

  怎么操作,看教程,下载地址如下,大家可以直接下载学习!

  千梦网第108计划第12计划:零成本游戏试玩搬砖,单机单机单日100+

  下载链接

  本内容设置为隐藏,需要打赏或“””才能查看!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线