操作方法:优采云采集器功能图解-优采云快速上手方法教程

优采云 发布时间: 2022-11-12 21:46

  操作方法:优采云采集器功能图解-优采云快速上手方法教程

  详细教程在设置列表中分解了任务采集的开始计划,可以是间隔、每天、每周、仅一次或自定义 Cron 表达式

  (关于 cron 表达式的编写,请参考相关术语的介绍)。保存设置后,可以根据设置执行任务。

  详细教程将在后面分解。

  

  网络发布配置

  Web 发布配置定义如何登录到网站并将数据提交到该网站。

  主要涉及登录信息的获取、网站编码设置、列列表的获取、使用数据测试发布效果等。

  详细教程将在后面分解。

  

  数据库发布模块

  一个用于编辑数据库的发布模块,以便我们可以将数据发布到配置的数据库。

  优采云采集器 可以选择四种数据库类型:MySQL、SQL Server、Oracle 和 Access,并在文本输入框中填写 SQL 语句

  (需要数据库知识)并且可以用标签替换数据。您还可以在采集器模块文件夹中加载要编辑的模块。详细教程将在后面分解。

  干货教程:软件推荐丨GoldDataSpider —— 网页数据抽取工具

  点击右上角关注开源中国OSC头条号,获取最新技术信息

  GoldDataSpider 是一个用于抓取网页和提取数据的工具。其核心代码与黄金数据采集融合平台分离。

  该项目提供从网页中抓取和提取数据的功能。它不仅可以提取网页内容,还可以从 URL、HTTP 标头和 cookie 中提取数据。

  该项目定义了简洁、灵活和敏捷的结构或常规语法。尽最大努力从网页内容、HTTP 标头、cookie 中提取有意义和有价值的数据字段,甚至将其他网页和其他 网站 数据关联起来形成数据记录。另外,还可以嵌入http请求来补充数据字段,比如一些需要提供字典翻译的字段等等。

  该项目还支持从各种类型的文档中提取数据,例如html/xml/json/javascript/text等。

  我们还提供规则可视化制定,请下载完全免费的黄金数据平台社区版,无限数量的采集,无限数量的爬虫,无限数量的导出数据。和详细的文档

  入门

  首先,我们需要给项目添加依赖,如下:

  1.对于maven项目

  

com.100shouhou.golddata

golddata-spider

1.1.3

  2.对于gradle项目

   compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'

  然后就可以使用这个依赖提供的简洁明了的API,如下:

  @Test

public void testGoldSpider(){

String ruleContent=

" { \n"+

" __node: li.sky.skyid \n"+

" date: \n"+

" { \n"+

" expr: h1 \n"+

" __label: 日期 \n"+

" } \n"+

" sn: \n"+

" { \n"+

" \n"+

<p>

" js: md5(baseUri+item.date+headers['Content-Type']);\n"+

" } \n"+

" weather: \n"+

" { \n"+

" expr: p.wea \n"+

" } \n"+

" temprature: \n"+

" { \n"+

" expr: p.tem>i \n"+

" } \n"+

" } \n";

GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()

.setUrl("http://www.weather.com.cn/weather/101020100.shtml")

.setRule(ruleContent)

.request();

List list=spider.extractList();

// List weathers=spider.extractList(Weather.class);

// Weather weathers=spider.extractFirst(Weather.class);

list.forEach( System.out::println);

}

</p>

  运行上面的测试,你会看到类似下面的输出:

  {date=19日(今天), weather=阴转小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}

{date=20日(明天), weather=小雨转多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}

{date=21日(后天), weather=多云转中雨, temprature=11℃, sn=728539ac882721187741708860324afa}

{date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}

{date=23日(周日), weather=小雨转多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}

{date=24日(周一), weather=多云转小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}

{date=25日(周二), weather=小雨转中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}

  用作服务或 API

  您可以在项目中将其用作调用服务和 API。例如如下:

  @Service

public class WeatherServiceImpl implements WeatherService{

<p>

public List listByCityId(Long cityId){

String url="http://www.weather.com.cn/weather/"+cityId+".shtml"

String rule=""

GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()

.setUrl(url)

.setRule(ruleContent)

.request();

return spider.extractList(Weather.class);

}

}

</p>

  可视化配置可以参考免费的社区版文档。以下是免费社区版的简单介绍,详情见官网!

  免费社区版:

  开源/免费

  让用户更好的了解和使用产品

  我们免费提供数据采集,并开放和维护核心开源代码项目。让用户更好的使用,了解采集,用好采集。让用户在各种场景中应用金数据采集带来的便利,我们相信客户会看到一个开放的数据平台,让用户放心、省心、省力。

  自由/灵活

  揭示强大的 采集 核心

  我们的采集器会将所有的目标数据暴露给用户,除了常规的网页内容,比如URL、HTTP头、cookies等,它还提供了各种分析工具和功能,让用户不仅可以得到网页内容中的数据,还能获取隐藏在 URL、HTTP 头、cookies 中的核心数据,并能灵活实现智能防屏蔽。

  分布式采集

  私有云,更灵活、更安全、更放心

  可以根据自己的需求随意部署采集器的数量,7*24小时不间断运行,对采集后端进行集中灵活控制。其中 采集器采集 数据是自由定向的。定时可定义采集,无需人员值守。

  数据可链接可追溯

  恢复/重建数据内在和外在价值

  每条数据都可以更新目标网站目标内容(如商品价格),更新用户申请表中数据相关字段的内容。

  无创融合

  融合从未如此现实和简单

  完全可以将采集数据整合到应用表中,而无需改变用户应用表结构(添加、删除或修改表列)。

  自动化/集成

  无需人工操作,随取随用

  不仅 采集 可以自动爬取,fusion 还提供了手动且强大的自动化。还把采集和融合操作无缝对接,可以对目标数据一一采集融合,实时流式传输到应用表中,即用即用!

  点击下方链接获取软件下载地址↓↓↓

  GoldDataSpider 主页、文档和下载 - Web 数据提取工具 - 开源中国

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线