软件推荐丨GoldDataSpider —— 网页数据抽取工具

优采云 发布时间: 2020-08-25 21:41

  软件推荐丨GoldDataSpider —— 网页数据抽取工具

  

  点击右上方,关注开源中国OSC头条号,获取最新技术资讯

  GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从黑色数据抓取融合平台分离而至。

  该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。

  该项目定义了一种简约、灵活、敏捷的结构或则说是规则句型。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据数组,比如个别数组须要向辞典提供翻译这样的数组等等。

  该项目还可支持从各类类型文档抽取数据,比如html/xml/json/javascript/text等。

  我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数目不受限、导出数据数目不受限的完全免费黑色数据平台社区版 。以及详细的文档

  使用入门

  首先,我们须要将依赖加入项目当中,如下:

  1、对于maven项目

  

com.100shouhou.golddata

golddata-spider

1.1.3

  2、对于gradle项目

   compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'

  然后你将可以使用该依赖所提供的简约清晰的API,如下:

  @Test

public void testGoldSpider(){

String ruleContent=

" { \n"+

" __node: li.sky.skyid \n"+

" date: \n"+

" { \n"+

" expr: h1 \n"+

" __label: 日期 \n"+

" } \n"+

" sn: \n"+

" { \n"+

" \n"+

" js: md5(baseUri+item.date+headers['Content-Type']);\n"+

" } \n"+

" weather: \n"+

" { \n"+

" expr: p.wea \n"+

" } \n"+

" temprature: \n"+

" { \n"+

" expr: p.tem>i \n"+

" } \n"+

" } \n";

GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()

.setUrl("http://www.weather.com.cn/weather/101020100.shtml")

.setRule(ruleContent)

.request();

List list=spider.extractList();

// List weathers=spider.extractList(Weather.class);

// Weather weathers=spider.extractFirst(Weather.class);

list.forEach( System.out::println);

}

  运行里面的测试,你将可以看类似下边的输出:

  {date=19日(今天), weather=阴转小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}

{date=20日(明天), weather=小雨转多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}

{date=21日(后天), weather=多云转中雨, temprature=11℃, sn=728539ac882721187741708860324afa}

{date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}

{date=23日(周日), weather=小雨转多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}

{date=24日(周一), weather=多云转小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}

{date=25日(周二), weather=小雨转中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}

  当作Service或则API使用

  你可以在项目中,可以当成调用服务和API使用。例如如下:

  @Service

public class WeatherServiceImpl implements WeatherService{

public List listByCityId(Long cityId){

String url="http://www.weather.com.cn/weather/"+cityId+".shtml"

String rule=""

GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()

.setUrl(url)

.setRule(ruleContent)

.request();

return spider.extractList(Weather.class);

}

}

  对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍 ,详情见官网!

  免费社区版:

  开源/免费

  让用户更好理解和使用产品

  我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。 让用户在各类场景应用黑色数据采集带来的便利,我们有信心使顾客看到一个开放的数据平台,让用户放心/省心/省力。

  自由/灵活

  透出一股强悍的采集核心

  我们的采集器,将向用户曝露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各类解析工具和函数,让用户除了能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。

  分布式采集

  私有云,更灵活,更安全,更放心

  可以按照自身需求,随意布署采集器数目,7*24小时不间断运行,采集后端集中灵活控制。可自由指挥数据在那个采集器采集。可定义定时采集,无需人员值守。

  数据可关联可追踪

  恢复/重建数据内在与外在价值

  可以使每条数据随着目标网站目标内容更新(如商品价钱)、而更新用户应用表该条数据相关数组内容。

  非侵入式融合

  融合未曾这么现实和简单

  完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。

  自动化/一体化

  无需人力操作,即抓即用

  不只是采集可以自动化抓取,融合也提供了手动化和强悍自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!

  点击下方链接,获取软件下载地址↓↓↓

  GoldDataSpider首页、文档和下载 - 网页数据抽取工具 - 开源中国

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线