集搜客入门
优采云 发布时间: 2020-08-09 12:42本文介绍集搜客GooSeeker基本使用方式,可快速简单的抓取网页上的数据。
注释:本文演示的抓取规则,可到资源库下载学习:集搜客如何抓取网页数据演示规则,下载运行即可抓取样本数据。
一、制作抓取规则
如果把“抓取数据”比喻成“做一道物理题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列举的“方程式”。后面的好多概念请好好看图哦,图里面都有注明的 。
1.输入目标网址,命名主题名
图1
第一步:将“要抓取的网址”输入到MS谋数台的网址栏,按ENTER键加载,可以看见网页在MS谋数台顶部浏览器窗口出现。
第二步:页面显示后,在命名主题工作台处“输入主题名”并查重以确定主题名是否可用,主题名被占用会导致规则难以保存。
2.新建整理箱
图2
第一步: 点击新建按键,在弹出的窗口中输入想要命名的整理箱名称。
第二步:在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容收录在整理箱中)。继续添加的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容;
第三步:勾选“关键内容”,选择整理箱中重要且确定会在网页上出现的内容勾上“关键内容”,它是爬虫判定是否采数据的参照点。
3.映射目标抓取内容
图3
第一步:在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)。
第二步:谋数台会手动定位“商品名”在网页标签窗口中节点的位置(A节点)。
第三步: 展开A节点,找到text。
第四步:点击text,可在 “文本窗口” 内容中见到text的值;
第五步:右击text做 “内容映射” 到商品名称。
抓取“商品价钱”和抓取“商品名称”的操作步骤相同。
Tips1:如果在内容映射后,发现只是抓取到了商品名称的一部分,参考教程:如何抓取网页片断完整信息
4.通过样例复制,抓取网页上相同结构的数据
图4
第一步:点击整理箱名。
第二步:勾选启用,启用样例复制功能。
第三步:分别找到第一个商品 和 第二个商品 对应的节点。
第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。
第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。
Tips:详细样例复制的复制操作参考教程:怎样批量抓取网页上结构相同的数据——样例复制
5. 规则测试成功后存规则
图5
第一步:点击测试 按钮可以看见抓取的内容,测试可见到抓取到的内容是不是我们想要的。
第二步:测试成功后,点击存规则,规则上载到服务器。
第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。
二、启动DS打数机爬数据
1.爬数据,DS打数机有多种采集数据的方法,具体见DS打数机怎么采集数据,下面介绍两种启动DS打数机的方式:
第一种:直接点击MS上面 “存规则” 按钮旁边的“爬数据” 按钮。
第二种:打开DS打数机,在 “搜索框” 输入主题名(可使用转义*辅助搜索)搜索后点击单搜开始抓取数据。
图6
Tips1:不只想要抓取当前页面的内容还想要抓取翻页后的内容,参考教程:怎样抓取翻页后的数据
Tips2:想要抓取当前页面的内容在深入到下一页抓取商品详情页的内容,参考教程:怎样深入多层级网页采集数据
2.看结果
数据以XML格式默认储存在磁盘用户文件夹的DataScraperWorks中,可自定义修改结果储存路径。
同时集搜客提供将XML批量导出EXCEL的工具。excel转化以后的数据,如图6所示。
图7