大数据捕获和采集框架（摘录为http: //blog.jobbole

优采云发布时间: 2020-08-07 01:06

　　提到如何构建社交采集系统架构. 该体系结构通常是虚拟的. 本文将讨论如何使用低成本服务器来实现每天采集数千万数据的分布式采集系统.

　　需要这样的采集系统才能达到目标: 需要采集300,000个关键字的数据，一个小时内必须采集微博，涵盖了四大微博（新浪微博，腾讯微博，网易微博，搜狐）微博）. 为了节省客户成本，硬件是普通服务器: E5200双核2.5G cpu，4G DDR3 1333内存，硬盘500G SATA 7200 rpm硬盘. 该数据库是mysql. 在这些条件下，我们能否实现这一系统目标？当然，如果有更好的硬件，这不是本文的内容. 现在，让我们解释如何通过采集和存储来实现它:

　　1. 采集，目标是在一小时内从四个主要微博中采集与300,000个关键字相对应的数据. 可以使用的机器配置是上面配置的普通服务器. 采集服务器对硬盘没有太多要求，这是CPU密集型操作，需要一些内存. 据估计，硬件资源不是瓶颈. 获取数据的界面有什么问题？

　　我们最终采用了第三种方法. 当前的运行状态是，通过30w关键字搜索获得的所有微博每天总计总计超过1000 w. 新浪和腾讯最多，而新浪微博则稍好一些. 使用6台普通的PC服务器，即使一台机器是7000元，总共4万元的硬件设备也解决了采集硬件的问题. 总体部署图为:

　　二，存储，如何处理采集到的数据？首先，存储和采集数据是一项密集的写入操作. 普通硬盘可以支持它吗，mysql数据库软件可以支持它，以及将来如何应对突然增加的趋势？然后是存储空间的评估. 如此之多的增长每天都需要大量的存储资源，如何存储和易于扩展.

　　根据这种体系结构，我们用开源免费软件和低成本服务器构建的数以千万计的数据采集系统在生产中运行良好.

0

2020-08-07

关键词自动采集生成内容系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

大数据捕获和采集框架（摘录为http: //blog.jobbole

0 个评论

发起人

AI时代内容工厂

大数据捕获和采集框架（摘录为http: //blog.jobbole

0 个评论

发起人

相关问题