豆瓣电影影评采集为例,讲解快捷采集的使用过程
优采云 发布时间: 2021-06-28 18:13豆瓣电影影评采集为例,讲解快捷采集的使用过程
Jisuke为不同的网站(网页)提供了很多快捷的采集工具,添加链接或者关键词,就可以采集data,不需要做采集规则,非常简单快捷.
我们以豆瓣影评采集为例说明Quick采集的使用过程。
1.首先下载安装Gooseeker Data Manager(增强爬虫软件)
数据管理器实际上是一个特殊的浏览器,具有爬虫功能和数据分析功能。
安装完成后,数据管理器会自动启动。
关闭数据管理器后,再次启动,可以双击桌面上的数据管理器图标。
2.Gooseeker 数据管理器中,打开极速客官网
登录爬虫,登录会员中心(注意爬虫账号和会员中心账号必须一致),查看服务器是否连接(绿勾已连接,红勾未连接) ).
3.输入快捷方式采集
点击数据管理器左侧边栏的“快速”按钮,进入快捷方式采集。
4.选择合适的快捷工具
根据你想要的网页采集,选择类别-网站-webpage。
比如要采集豆瓣影评列表页,选择社交-豆瓣-豆瓣_电影影评
如下图所示,选择快捷工具后,可以打开示例页面查看,后续操作时请确保添加的链接与示例页面类似。或者浏览页面底部的示例数据,详细了解所选快捷工具接收到的数据采集是否符合要求。
针对不同的豆瓣页面,有很多快捷工具,如豆瓣_电影短评、豆瓣阅读、豆瓣Group_Group关键词搜索列表、豆瓣用户等,您可以根据需要选择。
5. 操作步骤
我们以豆瓣影评工具为例说明操作流程。
6.1 粘贴网址并开始采集
比如我们想要采集movie《哆啦A梦:和我2》的影评列表,在豆瓣网站,用Ctrl+c复制这个链接
使用Ctrl+v粘贴到快捷工具的URL输入栏,选择你想要的页数采集,开始采集。
6.2 采集中的爬虫窗口
点击获取数据后,
数据管理器自动弹出两个采集窗口(窗口右下方有一个绿色状态球),一个窗口加载网页,采集data,一个窗口打包上传数据。当两个采集 窗口工作时,它们都不能关闭。
6.3 打包下载数据
数据管理器弹出采集窗口的同时,也弹出一个快捷方式采集数据管理窗口。
采集完成后,采集的状态会由*敏*感*词*的“采集中”变为绿色的“已经采集”。然后打包下载数据,下载的数据一般保存在电脑的下载文件夹中。
如果采集不成功,采集状态会变成红色“停止”。这个时候检查一下。
添加的关键词格式是否正确;
需要提前登录的网站,是否已经登录;
再次重新采集,注意采集窗口,网页是否正常加载,如果网页加载正常,但采集失败,请联系吉搜客官网论坛或QQ组,我们会及时测试维护这些工具。
7.采集到达数据
豆瓣影评快捷工具采集转数据:
在豆瓣影评列表页面,豆瓣影评未展开,不完整。在上面的数据表中,详细链接字段是指向每个电影评论的详细信息页面的链接。复制此列数据。加入豆瓣影评详情快捷工具,可以采集获取完整影评。
8.continue采集豆瓣影评详情
选择快捷方式采集tool豆瓣_电影评论详情
选择输入多个网址,将上面复制的详细链接用Ctrl+v批量粘贴到工具中,确认,启动采集。数据包和下载同上。
从上面的操作可以看出,到采集要获得完整的豆瓣影评,需要两个快捷工具组合使用,豆瓣_电影影评+豆瓣电影影评_details