数据获取与预处理 | 集搜客Gooseeker的简单介绍

优采云 发布时间: 2022-05-13 07:04

  数据获取与预处理 | 集搜客Gooseeker的简单介绍

  SYH | 是野火

  1.3 Gooseeker-数据爬取软件基础操作

  1. 爬虫程序/软件

  爬虫软件:集搜客Gooseeker、优采云、网络矿工、优采云、优采云平台……

  

  爬虫程序:Java、Python、R、C#、PHP……

  2.爬虫软件——集搜客Gooseeker

  

  √ 支持windows/mac/linux三种操作系统,全功能开发

  √ 由服务器和客户端两部分组成。服务其是用来存储规则和线索(待抓网址),MS谋数台是用来制作网页抓取规则的,DS打数机是用来采集网页数据的。

  

  ① 采用数据最简单的方式——直观标注

  将网页在MS谋数台中打开,直接在网页上将想要抓取的内容进行标注,即可将数据采集下来。

  ② DOM标注

  在DOM窗口中可以进行更精准的内容映射,及用@class和@id进行定位标志映射。

  整理自沈浩教授《媒体大数据挖掘与实战案例》

  这是我的个人公众号

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线