关键词采集词(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)
优采云 发布时间: 2022-02-11 16:46关键词采集词(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)
集搜客有成熟的微博工具箱,可以采集微博关键词搜索结果、博主博文、博主信息、微博话题、博文转发/评论等,你不需要采集 规则,只需输入关键词 或采集 的网页链接,非常简单快捷。
我们以微博关键词搜索结果为例来说明微博工具箱的使用。
1. 先下载安装Gooseeker数据管家(增强爬虫软件)
数据管家其实是一种特殊的浏览器,具有爬虫功能和数据分析功能。
安装完成后,Data Manager 将自动启动。
关闭数据管家后,要重新启动它,请双击桌面上的数据管家图标。
2. 在 Gooseeker 数据管理器中,打开吉索克官网
首先登录爬虫软件(见下图左下角红框),登录会员中心(见下图右上角红框)
注意:爬虫账号和会员中心账号必须相同。数据管家第一次运行会提示登录,就是登录爬虫软件。如果你这样登录,一般情况下,当你打开吉索克官网时,会自动提示你同步登录会员中心,点击确定。
二、检查服务器是否连接(绿色勾上已连接,红叉未连接)。如果服务器没有连接,需要重新登录左下角的爬虫账号(不是右上角的登录会员中心),点击“重新选择服务器”按钮,回车,注意使用https首先,不是http,如果https无法连接,再试http
3. 在数据管理器浏览器中打开新标签窗口,打开微博网站,登录微博账号。
因为微博网站登录后才能正常浏览,所以在采集之前,需要在数据管理器中打开并登录微博网站。
4. 进入微博工具箱
在数据管理器左侧栏,点击“微博”按钮,进入微博工具箱。
检查 关键词搜索工具
转到 关键词 工具的介绍页面
5. 过程
比较冷门的关键词,搜索结果不到50页,按照5.1最简单的操作步骤即可。
比较流行的关键词,搜索结果超过50页,需要按照5.2的步骤来细分搜索条件。
5.1 最简单的步骤
如下图,添加关键词,选择时间段,确认添加,启动采集。采集完成后打包下载数据。
注意点击开始采集后会有如下提示框,需要在采集之前用当前浏览器登录微博。我们之前已经登录过,所以点击继续。如果你没有登录,点击“登录”,系统会自动打开微博网站,你需要登录微博账号。然后返回并单击继续。爬虫会弹出采集窗口,加载微博网页,以及采集数据。
弹出采集窗口:有一个一直在旋转的图标,表示正在执行爬虫任务。根据服务器的繁忙程度,可能很快就会分配任务,并且可以看到微博页面已加载。
5.2 更复杂的步骤
在微博网站上搜索关键词,每次搜索最多显示50页。对于一个比较热门的词,有可能几个小时甚至一个小时的搜索结果就会达到50页。采集、时间段和其他高级搜索选项是必需的。
比如关键词“vaccine”比较火,我们想在4月1日到4月10日之间发布采集关于“vaccine”的博文,我们可以细分时间段如下:
其实关于“疫苗”,两天的博文也会超过50页,我们可以把它分成更细粒度的单位,以小时为单位。
如何选择合适的时间单位?在采集之前,用微博上的关键词高级搜索手动搜索一下,看多长时间能得到50页博文。
部分用户对采集收到的博文会有特殊的筛选要求,比如只需要原创的博文。
可以在高级设置中查看。
高级设置中有很多选项,在实际操作中可以根据需要勾选。(高级设置中的循环采集,适合长期跟踪采集微博,是旗舰版及以上用户的高级功能)
以上高级搜索设置与微博网站相同。不熟悉的可以在微博网站上手动练习几次关键词的高级搜索。
6. 采集 收到的数据
将采集接收到的数据打包下载,得到一个压缩的ZIP数据包,一般下载到电脑的下载文件夹中。双击自解压得到excel格式的数据表。
注意:采集完成后,转换为excel格式可能需要一段时间。时间长短取决于服务器的繁忙程度。因此,最好等几分钟再打包。如果发现打包不完整,过一会再尝试打包。
样本数据:
除了博文,这个数据表中还有两个字段值得特别关注:博主首页链接和博文独立链接。
通过博主首页链接,我们可以将这些链接批量添加到博主首页工具中,批量采集每个博主发布的所有博文。或者添加到博主详情工具中,获取博主简介/关注者/关注者/博文/位置、标签等详细信息。
通过单个博客文章链接,我们可以将这些链接添加到转发/评论工具中,以批量采集 转发和评论单个博客文章。或者添加到博文扩展工具中批量采集完成长博文。
从上面的介绍可以看出,微博工具箱中的各种工具可以组合使用,功能更强大,可以采集获取更大批量的数据。