全托管文章智能采集系统解决方案系统架构(图)
优采云 发布时间: 2021-06-21 06:02全托管文章智能采集系统解决方案系统架构(图)
全托管文章智能采集系统解决方案系统架构通常,我们在采集客户信息时,可以通过一套远程采集平台,将客户资料通过各个服务器端口集中采集在服务器上,然后根据业务逻辑流程自动上传到指定平台上。如今很多云服务商都提供了cdn、sdk、sdp等采集平台服务。那么我们需要将采集请求集中起来,采集全量还是在局域网上采集呢?很多人选择在局域网上,因为局域网较好处理,也有人选择局域网上采集全量,还有人选择将全量信息分布在一个全新的ip地址上。
其实都是采集。为什么我要选择在局域网上采集全量呢?当数据量较小,网络带宽也可以承受的情况下,可以单独利用局域网进行采集。如果数据量过大,一个区域的采集、清洗效率太低,可以考虑采用sdn、sdp,既节省带宽,又提高工作效率。http请求分析架构机器主要负责响应端口的上传、下载及返回信息。大约80%的请求来自网络带宽低的服务器,大约20%的请求来自于网络带宽高的服务器。
带宽高不高,上传、下载效率高不高,关键取决于自身所在局域网的带宽、路由器的路由性能和宽带。采集软件通常都基于nginx来实现,因为nginx做为cdn引擎,本身就是基于nginx实现的cdn实现,我们可以简单的把nginx的文件服务器比作局域网的带宽。那么由谁来把一个全量信息分发给服务器?小米机器人的api接口是对当前系统平台上的所有机器都能够支持。
那么我们如何让一个client也能支持服务器上的这些信息呢?一般都是client从已经下载好内容的其他服务器那里取。这样做会有什么问题呢?我们通常需要带上延迟,带来的问题就是还是会有人上不了。而且还有可能是机器本身网络带宽不足以支持我们这种延迟。同时,服务器网络带宽足够高,还可以不带延迟。如果带延迟,那么服务器就会很快掉线。
这还不是最要命的,最要命的是我们在局域网如果没有端口和ip地址的绑定,那么这些端口和ip将不能绑定到服务器。如果你自己有自己的ip,想自己绑定或者在一个单独的ip地址上绑定,如果你没有这样做,或者没有这样做的话,那么你就可能面临绑定成功后浏览器某个端口不能上网的问题。既然客户端连接服务器不是最关键的,那么作为局域网内服务器来说,它是怎么来进行全量数据分发的呢?这涉及到全局负载均衡和路由。
下面,我们重点关注全局负载均衡和路由。全局负载均衡又称为全局负载平衡、全局均衡,是指同一台服务器上的多个实例,应用程序、数据库、web应用均使用同一条路由,因此不会出现地址不对等的问题。既然是全局均衡,那么所有的请求(包括未加入路由的其他请。