解决方案:采集系统对服务器和客户端的要求有哪些?

优采云 发布时间: 2022-11-18 17:31

  解决方案:采集系统对服务器和客户端的要求有哪些?

  采集采集系统对服务器和客户端的要求比较低。请参考文章采集系统选型攻略。采集系统的架构从传统爬虫的基础架构来看,它在架构的设计上采用轻量、高性能、成本低的组合方式。就像玩游戏,玩单机游戏是需要联网的,需要联网后采集游戏的数据;购买更多服务器等则需要增加成本。同样,采集系统也要采用类似的方式来满足一台设备的采集任务。

  

  其次,采集系统既要容易扩展和扩充硬件支持,又要支持高容错性的要求。采集系统搭建,架构设计:采集系统整体架构与传统saas站点架构类似,即模块化设计,可按需划分成多个应用,这些应用进行分层,组建不同的库,也有一些库是共享的,也可以不共享。最核心的部分当然还是服务器了,需要了解到服务器的常用型号和采集应用模块所需的内存等信息。

  采集系统模块划分在通信中,有一个默认的图形化端口转发框架。而在源码中,有模块的配置,例如diff端口和分页等。这些都是程序设计时就需要定义好的。如果要求是采集特定平台和数据源,则需要根据配置转发默认的端口。另外,如果要实现海量数据的自动下载,需要购买专线,甚至要采用交换机来分级分流。采集系统的硬件设备搭建采集系统需要考虑到采集系统所需的硬件设备,如数据线、监控网卡、扫描网卡、编码网卡、rj45网线、光纤。

  

  这些设备的搭建,主要是为了省钱,主要用于满足大流量的采集。比如一台服务器放置采集端口,一台服务器放置发布端口。而对于saas系统来说,则可以只有一个服务器和两个集群,部署采集系统到集群,并独立隔离维护,一个集群部署到集群就可以了。服务器的搭建很简单,将服务器硬件配置好,然后联网,就可以进行后续的安装。

  一般来说,选择带宽较大的,带宽越大可以处理的数据范围越广,下载速度越快。采集系统实例我们实验室用的是mysql数据库,这套系统整体的实现过程是通过发布源代码,通过xml文件来描述。服务器的采集线路及模块端口也在xml中配置好。由于我们选用了自定义格式的url,而且在从源代码中插入url也很简单,而url属性也被我们隐藏掉,不需要再进行配置。

  其它通信协议如coap、http等也可以使用类似的方式。采集系统架构对这个部分不做介绍。采集系统的应用系统搭建完毕后,就可以实现我们的采集。我们采集市场的黄页,发布黄页对外提供服务,供公司内部使用,基本上实现了聚合黄页对外提供服务的功能。此外,我们建立了一个ip地址池,在发布黄页之前,建立一个池来存放不同的ip地址。为了进行数据抓取,需要一定的采集线路,这部分采集线路选用udp方式实。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线