网页文章自动采集( 免费社区版:开源/免费让用户更好理解和使用)
优采云 发布时间: 2021-10-31 00:03网页文章自动采集(
免费社区版:开源/免费让用户更好理解和使用)
点击右上角关注开源中国OSC头条号获取最新技术信息
GoldDataSpider 是一个用于抓取网页和提取数据的工具。核心代码与黄金数据采集与集成平台分离。
本项目提供对网页数据的爬取和提取,不仅可以提取网页内的内容,还可以提取URL、HTTP头、Cookie中的数据。
该项目定义了简洁、灵活、敏捷的结构或规则语法。尽量从网页内容、HTTP头、cookies,甚至其他网页,以及其他网站数据中提取有意义和有价值的数据字段,形成数据记录。另外,可以嵌入http请求来补充数据字段。比如有些字段需要提供翻译字段给字典等等。
该项目还可以支持从各种类型的文档中提取数据,例如html/xml/json/javascript/text等。
我们还提供规则的可视化制定。请下载完全免费的金数据平台社区版,采集数量不限,爬虫数量不限,导出数据不限。和详细的文档
入门
首先,我们需要在项目中添加依赖,如下:
1、对于maven项目
com.100shouhou.golddata golddata-spider 1.1.3
2、对于gradle项目
compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'
然后你就可以使用依赖提供的简洁明了的API,如下:
@Testpublic void testGoldSpider(){ String ruleContent= " { "+ " __node: li.sky.skyid "+ " date: "+ " { "+ " expr: h1 "+ " __label: 日期 "+ " } "+ " sn: "+ " { "+ " "+ " js: md5(baseUri+item.date+headers['Content-Type']);"+ " } "+ " weather: "+ " { "+ " expr: p.wea "+ " } "+ " temprature: "+ " { "+ " expr: p.tem>i "+ " } "+ " } "; GoldSpider spider= com.xst.golddata.GoldSpider.newSpider() .setUrl("http://www.weather.com.cn/weather/101020100.shtml") .setRule(ruleContent) .request(); List list=spider.extractList(); // List weathers=spider.extractList(Weather.class); // Weather weathers=spider.extractFirst(Weather.class); list.forEach( System.out::println);}
运行上面的测试,你会看到类似下面的输出:
{date=19日(今天), weather=阴转小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}{date=20日(明天), weather=小雨转多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}{date=21日(后天), weather=多云转中雨, temprature=11℃, sn=728539ac882721187741708860324afa}{date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}{date=23日(周日), weather=小雨转多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}{date=24日(周一), weather=多云转小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}{date=25日(周二), weather=小雨转中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}
作为服务或 API 使用
您可以将其用作项目中的调用服务和 API。例如如下:
@Servicepublic class WeatherServiceImpl implements WeatherService{public List listByCityId(Long cityId){String url="http://www.weather.com.cn/weather/"+cityId+".shtml" String rule=""GoldSpider spider= com.xst.golddata.GoldSpider.newSpider().setUrl(url).setRule(ruleContent).request(); return spider.extractList(Weather.class); }}
对于可视化准备,您可以参考文档的免费社区版本。以下是免费社区版的简单介绍,详情请看官网!
免费社区版:
开源/免费
让用户更好地了解和使用产品
我们采集免费获取数据,并开放和维护核心开源代码项目。让用户更好的使用和理解采集,用好采集。通过让用户在各种场景中使用黄金数据采集带来的便利,我们相信客户会看到一个开放的数据平台,让用户用得安心/省心/省力。
自由/灵活
展现强大的核心采集
我们的采集器会向用户公开所有目标数据,除了常规的网页内容,还有URLs、HTTP headers、cookies等,还提供了各种分析工具和功能,让用户不仅可以得到网页内容中的数据,还有隐藏在URL、HTTP头、Cookie中的核心数据,还可以灵活实现智能防拦截。
分布式采集
私有云,更灵活、更安全、更放心
您可以根据自己的需要随意部署采集器的数量,7*24小时不间断运行,采集后端集中灵活控制。您可以自由控制数据采集器采集的位置。可定义时间采集,无需人员值班。
数据可以链接和跟踪
恢复/重建数据的内在和外在价值
每条数据都可以更新目标网站的目标内容(如产品价格),更新用户申请表中数据相关字段的内容。
非侵入式融合
融合从未如此真实和简单
完全可以将采集数据整合到应用表中,而无需改变用户应用表结构(表列的增删改查)。
自动化/集成
无需人工操作,抓紧使用
不仅采集可以自动爬取,Fusion还提供手动强大的自动化功能。它还可以将采集与融合操作无缝对接,可以捕获一份目标数据并合并一份,并实时流式传输到应用表,以便立即使用!
点击下方链接获取软件下载地址↓↓↓
GoldDataSpider 主页、文档和下载-Web 数据提取工具-中国开源