微博关键词搜索结果为例,讲解微博工具箱使用过程
优采云 发布时间: 2021-05-18 01:00微博关键词搜索结果为例,讲解微博工具箱使用过程
Jishouke具有成熟的微博工具箱,您可以采集微博的关键词搜索结果,博客作者博文,博客作者信息,微博主题,博客文章转发/评论等。您无需这样做采集规则,只需输入关键词或指向采集的网络链接,就非常简单,快捷。
我们以微博关键词的搜索结果为例来说明微博工具箱的使用。
1.首先下载并安装Gooseeker Data Manager(增强的采集器软件)
Data Manager实际上是具有爬网程序功能和数据分析功能的特殊浏览器。
安装完成后,数据管理器将自动启动。
关闭数据管理器后,要重新启动,可以双击桌面上的数据管理器图标。
2.在Gooseeker数据管理器中,打开Jishouke的官方网站
首先,登录到采集器软件(请参见下图左下角的红色框)并登录到会员中心(请参见下图右上角的红色框)。
注意:采集器帐户必须与会员中心帐户相同。数据管理器第一次运行时,将提示您登录,这是登录采集器软件。如果您这次登录,通常情况下,打开Jishouke官方网站时,系统会自动提示您同步登录会员中心,只需单击以确认。
其次,检查它是否已连接到服务器(已连接绿色对勾,未连接红叉)。如果服务器未连接,请登录到左下角的采集器帐户(而不是右上角的登录成员中心),单击“重新选择服务器”按钮,然后输入。请注意,https是首选而不是http。如果无法连接https,请尝试http
3.在数据管理器浏览器中打开一个新的选项卡窗口,打开微博网站,然后登录到微博帐户。
由于微博网站登录后可以正常浏览,因此在采集之前,您必须打开并登录数据管理器中的微博网站。
4.进入微博工具箱
在数据管理器的左侧栏中,单击“ Wei”按钮以进入微博工具箱。
选择关键词搜索工具
进入关键词工具介绍页面
5.操作步骤
关键词不太热,搜索结果少于50页,只需按照5. 1的最简单步骤操作即可。
关键词较为流行,搜索结果充满了50页,您必须按照5. 2的步骤来细分搜索条件。
5. 1最简单的步骤
如下图所示,添加关键词,选择时间段,确认添加,然后开始采集。 采集完成后,打包并下载数据。
注意,单击开始采集后,将出现如下提示框,要求采集在当前浏览器中登录微博。我们之前已经登录,所以请单击以继续。如果您尚未登录,请单击“转到登录”,系统将自动打开微博网站,您需要登录微博帐户。然后返回并单击继续。采集器将弹出采集窗口,加载微博网页和采集数据。
弹出的采集窗口:有一个旋转图标,指示正在执行采集器任务。根据服务器的繁忙程度,可能很快会为其分配任务,您会看到微博页面已加载
5. 2更复杂的步骤
关键词在微博网站上搜索,每次搜索最多显示50页。对于一个相对热门的单词,可能需要几个小时甚至一个小时的搜索结果才能达到50页。 采集,您需要细分时间段和其他高级搜索选项。
例如,关键词“疫苗”相对较热。我们想要采集 4月1日至4月10日有关“疫苗”的博客文章。您可以按以下方式细分时间段:
实际上,关于“疫苗”,为期两天的博客文章也将超过50页,我们可以在几个小时内对其进行更详细的划分。
如何选择合适的时间单位?在采集之前,请先在微博上使用关键词高级搜索,然后手动搜索以查看将有50页博客文章的时间。
某些用户将对采集到达的博客帖子(例如仅原创博客帖子)有特殊的筛选要求。
您可以在高级设置中对其进行检查。
高级设置中有很多选项,可以在实际操作中根据需要进行检查。 (高级设置中的采集周期适用于采集微博的长期跟踪,并且是旗舰版以上用户的高级功能)
上述高级搜索设置与微博网站上的设置相同。如果您不熟悉它,则可以在微博网站上手动进行一些关键词高级搜索。
6.数据存入采集
打包并下载到采集的数据以获得压缩的ZIP数据包,通常将其下载到计算机的下载文件夹中。双击自解压以获取excel格式的数据表。
注意:采集完成后,可能需要一段时间才能转换为excel格式。时间的长短取决于服务器的繁忙程度。因此,最好在包装前等待几分钟。如果发现包装不完整,请稍后再尝试包装。
样本数据:
除博客文章外,此数据表中还有两个字段值得特别注意:博客作者首页链接和博客文章独立链接。
使用博客作者的主页链接,我们可以将这些链接批量添加到博客作者的主页工具中,并批量采集每个博客作者发布的所有博客文章。或将其添加到博客详细信息工具中,以获取有关博客*敏*感*词*/关注者数量/关注者数量/博客帖子数量/位置,标签等的详细信息。
具有独立的博客文章链接,我们可以将这些链接添加到转发/评论工具中,以批量采集转发和评论单个博客文章。或添加到博客文章扩展工具中,批处理采集以完成较长的博客文章。
从上面的介绍中可以看出,微博工具箱中的各种工具可以组合使用,具有更强大的功能,可以采集获取更大批量的数据。