数据获取与预处理 | 集搜客Gooseeker的简单介绍
优采云 发布时间: 2022-05-13 07:04数据获取与预处理 | 集搜客Gooseeker的简单介绍
SYH | 是野火
1.3 Gooseeker-数据爬取软件基础操作
1. 爬虫程序/软件
爬虫软件:集搜客Gooseeker、优采云、网络矿工、优采云、优采云平台……
爬虫程序:Java、Python、R、C#、PHP……
2.爬虫软件——集搜客Gooseeker
√ 支持windows/mac/linux三种操作系统,全功能开发
√ 由服务器和客户端两部分组成。服务其是用来存储规则和线索(待抓网址),MS谋数台是用来制作网页抓取规则的,DS打数机是用来采集网页数据的。
① 采用数据最简单的方式——直观标注
将网页在MS谋数台中打开,直接在网页上将想要抓取的内容进行标注,即可将数据采集下来。
② DOM标注
在DOM窗口中可以进行更精准的内容映射,及用@class和@id进行定位标志映射。
整理自沈浩教授《媒体大数据挖掘与实战案例》
这是我的个人公众号