集搜客入门

优采云 发布时间: 2020-08-09 12:42

  本文介绍集搜客GooSeeker基本使用方式,可快速简单的抓取网页上的数据。

  注释:本文演示的抓取规则,可到资源库下载学习:集搜客如何抓取网页数据演示规则,下载运行即可抓取样本数据。

  一、制作抓取规则

  如果把“抓取数据”比喻成“做一道物理题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列举的“方程式”。后面的好多概念请好好看图哦,图里面都有注明的 。

  1.输入目标网址,命名主题名

  

  图1

  第一步:将“要抓取的网址”输入到MS谋数台的网址栏,按ENTER键加载,可以看见网页在MS谋数台顶部浏览器窗口出现。

  第二步:页面显示后,在命名主题工作台处“输入主题名”并查重以确定主题名是否可用,主题名被占用会导致规则难以保存。

  2.新建整理箱

  

  图2

  第一步: 点击新建按键,在弹出的窗口中输入想要命名的整理箱名称。

  第二步:在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容收录在整理箱中)。继续添加的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容;

  第三步:勾选“关键内容”,选择整理箱中重要且确定会在网页上出现的内容勾上“关键内容”,它是爬虫判定是否采数据的参照点。

  3.映射目标抓取内容

  

  图3

  第一步:在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)。

  第二步:谋数台会手动定位“商品名”在网页标签窗口中节点的位置(A节点)。

  第三步: 展开A节点,找到text。

  第四步:点击text,可在 “文本窗口” 内容中见到text的值;

  第五步:右击text做 “内容映射” 到商品名称。

  抓取“商品价钱”和抓取“商品名称”的操作步骤相同。

  Tips1:如果在内容映射后,发现只是抓取到了商品名称的一部分,参考教程:如何抓取网页片断完整信息

  4.通过样例复制,抓取网页上相同结构的数据

  

  图4

  第一步:点击整理箱名。

  第二步:勾选启用,启用样例复制功能。

  第三步:分别找到第一个商品 和 第二个商品 对应的节点。

  第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。

  第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。

  Tips:详细样例复制的复制操作参考教程:怎样批量抓取网页上结构相同的数据——样例复制

  5. 规则测试成功后存规则

  

  图5

  第一步:点击测试 按钮可以看见抓取的内容,测试可见到抓取到的内容是不是我们想要的。

  第二步:测试成功后,点击存规则,规则上载到服务器。

  第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。

  二、启动DS打数机爬数据

  1.爬数据,DS打数机有多种采集数据的方法,具体见DS打数机怎么采集数据,下面介绍两种启动DS打数机的方式:

  第一种:直接点击MS上面 “存规则” 按钮旁边的“爬数据” 按钮。

  第二种:打开DS打数机,在 “搜索框” 输入主题名(可使用转义*辅助搜索)搜索后点击单搜开始抓取数据。

  

  图6

  Tips1:不只想要抓取当前页面的内容还想要抓取翻页后的内容,参考教程:怎样抓取翻页后的数据

  Tips2:想要抓取当前页面的内容在深入到下一页抓取商品详情页的内容,参考教程:怎样深入多层级网页采集数据

  2.看结果

  数据以XML格式默认储存在磁盘用户文件夹的DataScraperWorks中,可自定义修改结果储存路径。

  同时集搜客提供将XML批量导出EXCEL的工具。excel转化以后的数据,如图6所示。

  

  图7

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线