根据关键词文章采集系统(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)
优采云 发布时间: 2021-09-05 08:28根据关键词文章采集系统(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)
极手客有成熟的微博工具箱,你可以采集微博的关键词搜索结果、博主博文、博主信息、微博话题、博文转帖/评论等,你不需要采集规则,只需输入关键词或采集的网页链接,非常简单快捷。
我们以微博关键词search结果为例说明微博工具箱的使用。
1.首先下载安装Gooseeker Data Manager(增强爬虫软件)
数据管理器实际上是一个特殊的浏览器,具有爬虫功能和数据分析功能。
安装完成后,数据管理器会自动启动。
关闭数据管理器后,再次启动它,双击桌面上的数据管理器图标。
2.Gooseeker 数据管理器中,打开极速客官网
首先登录爬虫软件(见下图左下角红框),登录会员中心(见下图右上角红框)。
注意:爬虫账号必须与会员中心账号一致。数据管理器第一次运行会提示登录,也就是登录爬虫软件。如果此时登录,一般情况下,当您打开极手客官网时,会自动提示您同步登录会员中心,点击确认即可。
其次检查是否连接到服务器(绿色勾已连接,红色叉未连接)。如果没有连接服务器,请登录左下角的爬虫账号(不是右上角的登录会员中心),点击“重新选择服务器”按钮,进入。请注意,首选 https 而不是 http。如果 https 无法连接,请尝试 http
3.在数据管理器浏览器中打开一个新标签窗口,打开微博网站,并登录微博账号。
因为微博网站只有登录后才能正常浏览,所以采集之前必须在资料管理器中打开并登录微博网站。
4.进入微博工具箱
在数据管家左侧边栏,点击“微”按钮,进入微博工具箱。
选择关键词搜索工具
进入关键词tools的介绍页面
5. 操作步骤
不太热的关键词,搜索结果不到50页,只需按照5.1的最简单步骤即可。
比较热门的关键词,搜索结果满50页,需要按照5.2的步骤细分搜索条件。
5.1 最简单的操作步骤
如下图,添加关键词,选择时间段,确认添加,启动采集。 采集完成后,打包下载数据。
注意点击启动采集后,会出现如下提示框,要求采集在当前浏览器中登录微博。我们之前已经登录过,所以点击继续。如果您没有登录,点击“登录”,系统会自动打开微博网站,您需要登录一个微博账号。然后返回并单击继续。爬虫会弹出采集窗口,加载微博网页,以及采集数据。
弹出的采集窗口:有一个旋转的图标,表示正在执行爬虫任务。根据服务器的繁忙程度,可能很快就会被分配任务,可以看到微博页面加载完毕
5.2 更复杂的步骤
微博网站的关键词搜索,每次搜索最多显示50页。对于一个比较热的词,有可能几个小时甚至一个小时的搜索结果就会达到50页。 采集,需要细分时间段等高级搜索选项。
比如关键词"vaccine"比较火。我们想要采集 4 月 1 日到 10 日之间关于“疫苗”的博文。你可以这样细分时间段:
其实关于“疫苗”,两天的博文也将超过50页,我们可以更详细地划分,以小时为单位。
如何选择合适的时间单位?在采集之前先用关键词Advanced Search微博,手动搜索,看多久会有50页博文。
有些用户会对采集到达的博文有特殊的筛选要求,例如只需要原创博文。
您可以在高级设置中查看。
高级设置中有很多选项,实际操作时可以根据需要勾选。 (高级设置中的循环采集适合长期跟踪采集微博,是旗舰版以上用户的高级功能)
以上高级搜索设置与微博网站相同。如果不熟悉,可以在微博网站上手动练习关键词的高级搜索。
6.采集到达数据
将采集收到的数据打包下载,得到一个压缩的ZIP数据包,一般下载到电脑的下载文件夹中。双击自解压得到excel格式的数据表。
注意:采集完成后,转换为excel格式可能需要一段时间。时间长短取决于服务器的繁忙程度。因此,最好在包装前等待几分钟。如果您发现打包不完整,请稍后尝试重新打包。
示例数据:
除了博文,这个数据表中还有两个字段值得特别关注:博主首页链接和博文独立链接。
有了博主首页的链接,我们就可以将这些链接批量添加到博主的首页工具中,批量采集每个博主发表的所有博文。或者添加到博主详情工具,获取博主*敏*感*词*/关注人数/关注人数/博文数量/位置、标签等详细信息。
通过独立的博文链接,我们可以将这些链接添加到转发/评论工具中,并批量采集转发和评论每篇博文。或者加入博文扩展工具,批量采集完成长博文。
从上面的介绍可以看出,微博工具箱中的各种工具都可以组合使用,功能更强大,可以采集获取更大批量的数据。