关键词采集词(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)

优采云 发布时间: 2022-02-11 16:46

  关键词采集词(集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果为例)

  集搜客有成熟的微博工具箱,可以采集微博关键词搜索结果、博主博文、博主信息、微博话题、博文转发/评论等,你不需要采集 规则,只需输入关键词 或采集 的网页链接,非常简单快捷。

  我们以微博关键词搜索结果为例来说明微博工具箱的使用。

  1. 先下载安装Gooseeker数据管家(增强爬虫软件)

  数据管家其实是一种特殊的浏览器,具有爬虫功能和数据分析功能。

  安装完成后,Data Manager 将自动启动。

  关闭数据管家后,要重新启动它,请双击桌面上的数据管家图标。

  

  2. 在 Gooseeker 数据管理器中,打开吉索克官网

  首先登录爬虫软件(见下图左下角红框),登录会员中心(见下图右上角红框)

  注意:爬虫账号和会员中心账号必须相同。数据管家第一次运行会提示登录,就是登录爬虫软件。如果你这样登录,一般情况下,当你打开吉索克官网时,会自动提示你同步登录会员中心,点击确定。

  二、检查服务器是否连接(绿色勾上已连接,红叉未连接)。如果服务器没有连接,需要重新登录左下角的爬虫账号(不是右上角的登录会员中心),点击“重新选择服务器”按钮,回车,注意使用https首先,不是http,如果https无法连接,再试http

  

  3. 在数据管理器浏览器中打开新标签窗口,打开微博网站,登录微博账号。

  因为微博网站登录后才能正常浏览,所以在采集之前,需要在数据管理器中打开并登录微博网站。

  

  4. 进入微博工具箱

  在数据管理器左侧栏,点击“微博”按钮,进入微博工具箱。

  

  检查 关键词搜索工具

  

  转到 关键词 工具的介绍页面

  

  5. 过程

  比较冷门的关键词,搜索结果不到50页,按照5.1最简单的操作步骤即可。

  比较流行的关键词,搜索结果超过50页,需要按照5.2的步骤来细分搜索条件。

  5.1 最简单的步骤

  如下图,添加关键词,选择时间段,确认添加,启动采集。采集完成后打包下载数据。

  

  注意点击开始采集后会有如下提示框,需要在采集之前用当前浏览器登录微博。我们之前已经登录过,所以点击继续。如果你没有登录,点击“登录”,系统会自动打开微博网站,你需要登录微博账号。然后返回并单击继续。爬虫会弹出采集窗口,加载微博网页,以及采集数据。

  

  弹出采集窗口:有一个一直在旋转的图标,表示正在执行爬虫任务。根据服务器的繁忙程度,可能很快就会分配任务,并且可以看到微博页面已加载。

  

  5.2 更复杂的步骤

  在微博网站上搜索关键词,每次搜索最多显示50页。对于一个比较热门的词,有可能几个小时甚至一个小时的搜索结果就会达到50页。采集、时间段和其他高级搜索选项是必需的。

  比如关键词“vaccine”比较火,我们想在4月1日到4月10日之间发布采集关于“vaccine”的博文,我们可以细分时间段如下:

  

  其实关于“疫苗”,两天的博文也会超过50页,我们可以把它分成更细粒度的单位,以小时为单位。

  

  如何选择合适的时间单位?在采集之前,用微博上的关键词高级搜索手动搜索一下,看多长时间能得到50页博文。

  部分用户对采集收到的博文会有特殊的筛选要求,比如只需要原创的博文。

  可以在高级设置中查看。

  

  高级设置中有很多选项,在实际操作中可以根据需要勾选。(高级设置中的循环采集,适合长期跟踪采集微博,是旗舰版及以上用户的高级功能)

  以上高级搜索设置与微博网站相同。不熟悉的可以在微博网站上手动练习几次关键词的高级搜索。

  6. 采集 收到的数据

  将采集接收到的数据打包下载,得到一个压缩的ZIP数据包,一般下载到电脑的下载文件夹中。双击自解压得到excel格式的数据表。

  注意:采集完成后,转换为excel格式可能需要一段时间。时间长短取决于服务器的繁忙程度。因此,最好等几分钟再打包。如果发现打包不完整,过一会再尝试打包。

  样本数据:

  

  除了博文,这个数据表中还有两个字段值得特别关注:博主首页链接和博文独立链接。

  通过博主首页链接,我们可以将这些链接批量添加到博主首页工具中,批量采集每个博主发布的所有博文。或者添加到博主详情工具中,获取博主简介/关注者/关注者/博文/位置、标签等详细信息。

  通过单个博客文章链接,我们可以将这些链接添加到转发/评论工具中,以批量采集 转发和评论单个博客文章。或者添加到博文扩展工具中批量采集完成长博文。

  从上面的介绍可以看出,微博工具箱中的各种工具可以组合使用,功能更强大,可以采集获取更大批量的数据。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线