曝光:新浪微博数据采集
优采云 发布时间: 2020-09-03 20:02新浪微博数据采集
[华为最佳实践案例]如何避免C / C ++的陷阱和例程? >>>
随着大数据和社交网络的迅猛发展,社交网络上生成的数据变得越来越有价值,尤其是微博和微信作为当今最热门的社交平台,如果您可以比较这两个平台上的数据,深入的分析和挖掘,其价值将非常巨大,但是如果您要开发一个采集器程序,那绝非易事。经过多次比较和尝试,作者终于成功完成了整个数据采集的处理,采集的数据为有关指定城市所有微博用户的信息。例如,微博的名称,微博的地址,微博的数量,粉丝的数量,名片等,请输入主题,然后逐步了解该方法。
1.打开采集器并创建一个新任务,如下所示选择组:新浪微博,这里可以使用任何组,我在新浪微博上放置了一个特殊的组进行管理采集微博您可以根据自己的情况在此处输入任务名称。我的采集是沉阳的微博信息。然后输入注释。
2.然后进入采集流程界面的设计。这个界面看起来很复杂,但是实际上非常简单。让我们先看看上面的一半,包括第一个转到网页,以及“检查条件”中的所有处理步骤。 。他们完成了什么样的工作?即打开微博登录页面,然后检查用户是否登录。如果未登录,请按照左侧的步骤执行三个步骤:输入用户名,输入密码,然后单击登录。如果您已经登录,请按照右侧的步骤操作:不执行任何操作。为什么需要登录?如果您未登录,则只能看到一页数据。登录后,您可以看到所有数据,因此如果需要采集所有数据,则需要登录。由于屏幕截图不完整,该过程的后半部分不完整,因此请参阅第三步。
3.从上一步继续,这是该过程的后半部分。下半年的第一步是打开沉阳的用户列表,然后进行循环:在循环中翻页,因为我们想要采集所有页面的数据,在此循环内,还有另一个循环:循环当前页面上的所有用户,因此您可以采集在一个页面上获取多个用户的数据,而在一个微博页面上则收录20个用户的数据。在此循环中有一个数据提取步骤。此步骤实际上是在提取数据,但是它提取的是当前循环用户的数据。我们只需要单击页面上的数据采集,系统就会自动对其进行配置,因此此步骤很容易。
在4.配置了采集规则之后,我们设置了执行计划。在这里,因为我每周需要采集一次才能获得本周新注册的微博用户,所以我每周选择一次。注意此时间是云采集,这意味着他将在云服务器上运行,并且开始时间如图所示。我们将其设置为星期一晚上0:00。当然,您可以自己设置这个时间。因此,无需在每个星期一晚上的0:00开启计算机即可转到采集,我们不在乎是否进行设置。从现在开始,在每个星期一的0:00,云采集服务器将自动启动采集的任务。
5.完成上述步骤后,即使配置已完成,我们也会在下一步中执行测试。从图中可以看到,数据已经成功采集。 采集完成后,可以将其导出到Excel,等待其使用。
本文已发布在优采云 采集器官方网站上