智能采集发布器(智能采集发布器与云采集的区别,你知道吗?)

优采云 发布时间: 2022-04-01 03:06

  智能采集发布器(智能采集发布器与云采集的区别,你知道吗?)

  智能采集发布器与云采集的区别,简单来说:云采集是把数据转化为web数据(云采集的工作流也是数据流,以tfrecords方式存储),然后再转化为web数据。实现方式:收集方上传一个采集器,在云采集将采集的文件上传服务器上,然后服务器将该采集器转化为html文件存在cloudflare。云采集方将自己所在文件上传云服务器,云服务器再转化为html文件。

  (优点:采集速度快、文件不会丢失等)在html文件需要添加标签或a标签时,采集器则直接把该标签作为键来识别成对应的传入文件。智能采集发布器,则不同。采集器是运行在node环境的,采集用户上传的数据,再把数据转化为web形式的数据。还有一点,采集器是只读的,每次采集完成后,都只能把采集的web数据删除。

  实现方式:采集的文件,只能通过request下发给服务器,服务器上需要注册几个request代理,用来把采集的文件分发给用户。智能采集发布器,依赖于软件,本身的采集是不需要外界干预的。而云采集则是需要硬件支持的。(优点:采集速度快、文件不会丢失等)。

  从现在*敏*感*词*不断涌现出的如neo4j,graphx,milk,marketplace,bulktop等新型实现来看,采集发布器已经是两个有机结合的过程。现在云采集也开始火热了,op@github更是一窝蜂的国外idea,创造出一批前端、后端、云端一体化的云端技术实现,而对于消费者来说,对云采集没有一个清晰地概念,往往误以为和request网络短信采集是一样的原理。

  但是云采集要求很高的可靠性,大于10tps是起码的,然后采集速度还需要保证按时传输,增加了云端服务器的负担,并且要防止udp爬虫攻击,还要防止workerthreadblocking这一类攻击,还有很多等等挑战的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线