大数据学习交流群:529867072，群里都是学

优采云发布时间: 2021-05-31 07:05

　　(一）系统日志采集方法

　　系统日志记录了系统中的硬件、软件和系统问题的信息，也可以监控系统中发生的事件。用户可以使用它来检查错误的原因，或者查找攻击者在受到攻击时留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。（百度百科）大数据平台或类似开源的Hadoop平台会产生大量高价值的系统日志信息。采集如何成为研究人员的研究热点。 Chukwa、Cloudera的Flume和Facebook的Scribe（李连宁，2016）目前基于Hadoop平台开发的，都可以作为系统日志采集方法的例子，目前这样的采集技术每秒可以传输数百次。 MB日志数据信息满足了当前人们对信息速度的需求。一般来说，与我们相关的不是这种采集方法，而是网络数据采集方法。

　　还是推荐我自己的大数据学习交流群：529867072，群里都是学习大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，分享干货来自不定时（只与大数据软件开发有关），包括最新的大数据进阶资料和自己编的进阶开发教程。欢迎加入先进先进的大数据合作伙伴。

　　(二）网络数据采集方法

　　做自然语言的同学可能对这一点深有感触。除了现有的用于日常算法研究的公共数据集外，有时为了满足项目的实际需要，需要采集，预处理和保存。目前网络数据采集有两种方法，一种是API，一种是网络爬虫。

　　1.API

　　API也称为应用程序编程接口，它是网站管理员为用户端编写的编程接口。这种类型的接口可以屏蔽网站底层的复杂算法，并通过简单地调用它来实现数据请求功能。目前新浪微博、*敏*感*词*、Facebook等主流社交媒体平台均提供API服务，相关demo可在其官网开放平台获取。但是，API 技术毕竟受到平台开发者的限制。为了减少网站（平台）的负载，一般平台都会限制日常接口调用的上限，给我们带来很大的不便。为此，我们通常使用第二种方法——网络爬虫。

　　2.网络爬虫

　　网络爬虫（也称为网络蜘蛛、网络机器人，在 FOFA 社区中，更常见的是网络追逐）是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。（百度百科）最常见的爬虫就是我们经常使用的搜索引擎，比如百度和360搜索。这类爬虫统称为万能爬虫，对所有网页都是无条件的采集。通用爬虫的具体工作原理如图1所示。

　　图1爬虫工作原理[2]

　　给爬虫初始URL，爬虫提取并保存网页需要提取的资源，同时提取网站中存在的其他网站链接，发送请求后，接收到网站响应并再次解析页面，提取所需资源并保存，然后从网页中提取所需资源...等等，实现过程并不复杂，但是在采集中，需要付出特殊的代价注意IP地址和头部的伪造，避免被禁IP被网管发现（我被禁），被禁IP意味着整个采集任务的失败。当然，为了满足更多的需求，多线程爬虫和主题爬虫也应运而生。多线程爬虫使用多个线程同时执行采集任务。一般来说，线程数少，采集的数据会增加几倍。主题爬虫与一般爬虫相反。他们通过一定的策略过滤掉与主题（采集任务）无关的网页，只留下需要的数据。这样可以大大减少不相关数据导致的数据稀疏问题。

　　(三）其他采集方法

　　其他采集法律是指如何保证科研院所、企业政府等拥有机密信息的数据安全传输？可以使用系统的特定端口来执行数据传输任务，从而降低数据泄露的风险。

　　【结论】大数据采集技术是大数据技术的开端。好的开始是成功的一半。所以在做数据采集的时候一定要慎重选择方法，尤其是爬虫技术。主题爬虫应该是大多数数据采集任务的更好方法，可以深入研究。返回搜狐查看更多

0

2021-05-31

通过关键词采集文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

大数据学习交流群:529867072，群里都是学

0 个评论

发起人