我可以使用GooSeeker Data Manager采集微博内容吗?
优采云 发布时间: 2020-08-08 18:07
Jisouke Data Manager是GooSeeker发布的带有新内核的Web爬网程序工具. Data Manager不仅将Jisuke Web爬网程序软件移植到新内核,而且使整个操作体验更加简洁和易于使用.
以下将说明使用Data Manager采集微博的操作过程. 请提前下载并安装Jishou Data Manager软件.
1,进入微博采集工具管理界面
Jizou Data Manager软件看起来像浏览器,其用法与浏览器相同. 要采集微博数据,您必须首先进入数据管理器上的微博采集工具箱页面. 页面上有很多微博采集工具. 找到您要使用的微博工具,然后进入该工具的管理页面以开始采集过程并管理采集过程. 下面将详细说明.
1.1,进入微博工具箱页面
微博采集工具箱页面列出了所有工具,是官方网站上的页面.
a)如何找到微博工具箱
Data Manager运行后,将立即加载GooSeeker网站的主页. 另一种输入方式是单击地址栏上的“返回主页”按钮以再次显示主页(请参见下图中箭头所指的按钮).
选择主页顶部的菜单“产品”->“微博采集”,进入微博采集工具箱界面.
b)选择合适的微博采集工具
微博上的不同网页对应于不同的采集工具. 有关这些采集工具之间的关系,请参阅“新浪微博数据采集策略”. 这些工具可以组合使用. 将前一个工具采集的数据导出为excel格式后,复制URL并将其添加到下一个工具.
单击下图中的工具以进入工具介绍页面,然后单击“入门”按钮以进入工具管理页面.
如下图所示,每个正方形都是微博采集工具.
以下以关键字搜索结果集合为例,说明如何运行采集器.
1.2,进入关键字搜索结果采集界面
尽管微博采集工具不同,但界面基本相同. 主要功能按钮为:
a)创建任务
对应于上图中的“确认添加”和“细分条件”. 输入要搜索的关键字后,可以设置或不设置细分条件. 确认添加后,创建采集任务
b)开始采集
对应于上图中的“开始采集”按钮. 如果数据管理器没有运行两个爬虫组窗口,则需要单击“开始采集”,系统将提示您是否需要提前登录微博. 如果尚未登录,则必须先登录微博.
c)包装
采集完成后或在采集中间,您可以单击“打包”按钮以查看提示界面并下载采集的微博数据.
d)数据下载
只有新采集的数据可以单击“打包”按钮. 如果要重新下载以前打包的数据,请单击“数据下载”按钮.
e)其他功能
界面上有很多管理功能,例如
1. 点击“采集状态”按钮以查看详细的采集进度
2,单击采集任务的关键字,界面下部将显示最新采集结果数据
3. 单击“采集状态”按钮后,“重新采集失败线索”按钮将显示在界面上,您可以再次采集失败的URL.
2,观察集合的操作
2.1,用于采集数据的窗口
Collector Data Manager可以同时打开许多选项卡浏览器. 当您单击“开始采集”时,将添加两个选项卡浏览器窗口. 它们不同于普通的窗户. 右下角有一个进度球,鼠标在浮动. 您可以看到状态在不断变化.
关闭带有进度球的窗口时,将提示您确认是“强制关闭”还是“安全关闭”. 如果强行关闭,则窗口将立即关闭. 如果安全关闭,请等待当前任务采集完成. 它将自动关闭.
2.2,打包数据的窗口
启动微博采集后,将同时运行两个采集器组窗口,其中一个似乎没有采集数据,但是最好不要关闭它,因为此窗口专门用于打包数据. 如果关闭,则只能等待采集数据的窗口进行最后的打包. 如果最后一次打包失败,则会丢失很多数据.
以下是打包数据窗口的屏幕截图,您可以看到连续打包的数据. 这种增量包装更加可靠,即使丢失了,它也是局部的.
3,注意事项
1. 采集器运行时,请勿最小化或缩小数据管理器的界面,而应尝试使其最大化,否则微博可能不会加载Web内容.
2. 如果要使用计算机执行其他操作,则可以在数据管家界面上覆盖其他窗口,这不会影响采集器的操作,但是不能将其最小化.