分布式队列优化系列之关键词采集技术分享(二)
优采云 发布时间: 2021-06-24 18:01关键词采集技术分享(红字部分采集自官网)本文章涉及apachekafka,apacheflume,apachespark等分布式队列。分布式队列优化系列的第一篇,可以进去看第二篇,公众号后台回复“分布式队列”获取链接。分布式队列是由一些网络服务构成的一个日志分发的系统。使用分布式队列,将整个网络服务分为更小的一个部分,将更好的配置交给网络服务。
分布式队列的优点和缺点分布式队列是由不同服务维护各自的主节点和监视节点,维护这种结构也有自己的效率要求。使用分布式队列时,每一个节点需要保证最少的配置信息分布式队列适合的用户场景大多数时候,分布式队列只应用于分布式应用程序中,这样可以充分利用节点的配置和数据。尽管如此,在分布式应用程序中要求应用中包含访问队列的各个服务的消息。
接下来将谈谈分布式队列常见的消息发送服务,其消息服务本身需要达到高可用。分布式队列队列服务是数据收集,广播,同步和索引服务。对于大多数网络服务提供商来说,通常采用在两个集群之间分别提供队列服务,让两个集群彼此自由传递已经收集的消息,大大提高了数据存储效率。这个方法对于普通应用也是一样适用。分布式队列服务可以与分布式文件系统来使用。
原因是,分布式文件系统既支持数据索引,也支持filetransfer。因此,分布式队列服务同样可以与这两个系统配合。分布式队列服务本身,以及通过这个服务所定义的配置信息,需要在其它的分布式文件系统下。这样可以大大减少文件系统的重复。主要有以下几种类型的分布式队列服务:1.客户端队列在这种情况下,客户端使用react或者instagram类型的应用程序,他们与react,tweetbot或者discord是一起工作的。
客户端需要建立队列,通过几次服务所定义的网络请求,将数据同步到队列。2.服务服务服务是在分布式云服务平台上运行的应用程序,比如firebase。在这种情况下,服务同样需要建立一个队列,同步,一个响应,然后利用队列对数据进行广播。3.客户端服务器对于客户端服务,使用客户端服务同步数据。4.服务器因为服务器是用户的服务器,这时候客户端和服务器的网络结构同样是分布式的。
如果用户不需要直接对服务器进行连接,而是直接连接到服务器并且进行数据的同步。由于在第一篇中我们分享过如何使用分布式文件系统实现实体查询的对象关系查询,这时候客户端和服务器的存储系统分别存储不同的表,所以这种类型的数据不需要进行同步查询。5.队列服务既然本文我们谈到了分布式队列服务,那么这一节我们就重点说说队列服务的服务。常见的队列服务服务是将。