汇总:大数据采集平台
优采云 发布时间: 2022-10-21 14:28汇总:大数据采集平台
大数据采集平台是广东泰迪智能科技为高校大数据相关专业课程的教学和培训开发的工具。平台采用图形用户界面,通过输入网页信息,快速抓取网页上的文字、链接、图片、视频、文档文件等各类数据;数据存储在数据库中,通过平台可以方便地查看网页数据。不仅可以帮助学生快速了解数据采集的规律和流程,还可以帮助教师降低数据采集备课成本,利用平台现有功能讲解数据采集规则清晰并显示数据采集结果;
平台展示
功能模块及说明
1. 采集项目
提供互联网公共网页数据采集的功能。通过配置打开网页、点击元素、翻页循环、输入文本、配置提取的数据字段等各种网页浏览操作,可以实现不同类型、多页面、多层次的网页数据采集得以实现。通过配置数据字段,可以实现文本、链接、图片、视频、文档文件等结构化和非结构化数字数据的采集。通过配置采集任务性能,实现整个采集流程的数据完整性和稳定性
2. 安排任务
为采集工程提供时序控制功能。通过预设单个采集时间,或每天、每周或每月采集时间,数据将自动定期采集。支持同时为多个采集项目设置定时任务,根据需要可以多种采集时间组合,灵活调度自己的采集任务
3. 数据集
提供数据存储能力。将采集的数据存入数据库,在线预览数据,下载数据到本地
大数据采集平台的特点如下。
(1)看采摘,满足各种采集需求。支持采集用于不同类型、多页面、多层次的网页数据,支持采集用于结构化和非结构化数据。
(2) 不需要很强的编程技能。通过点击提取元素xpath,可以快速准确的获取数据。
(3)调度采集,灵活调度采集任务。通过预设单个采集时间,或每天、每周或每月采集时间,数据将自动定期采集。它还支持同时为多个采集项目设置定时任务。
(4)将采集的数据存入数据库,通过爬虫任务不断积累数据,丰富数据集。
4.3 功能介绍
教训和说明
1.校园网新闻公告信息采集
采集新闻标题、封面图、摘要、发布时间、发布单位、作者、访问量等。
2.豆瓣阅读小说书籍资讯采集
采集书名、封面、作者、出版商、出版年份、页数、定价、书号、评级、介绍等。
汇总:flink实时数仓(一)之数据采集
#### 1.1 普通实时计算与实时数仓对比
普通实时计算优先考虑及时性,所以直接从数据源采集通过实时计算得到结果。这样比较省时,但缺点是计算过程中的中间结果没有沉淀出来,所以在面对大量实时需求时,计算的复用性较差,开发成本线性增加随着需求的增加。
实时数仓基于一定的数据仓库概念,对数据处理过程进行规划和分层,以提高数据的可重用性。

#### 1.2 实时电商数据仓库,项目分为以下几层
- 消耗臭氧层物质
原创数据、日志和业务数据
- DWD
按数据对象划分,如订单、页面访问量等。
- 昏暗
维度数据
- 分布式管理
对一些数据对象的进一步处理,如独立访问、跳出行为等,也可以与维度相关联,形成一张宽表,仍然是详细的数据。
- DWS
根据一个主题轻轻聚合多个事实数据,形成一个主题范围的表。
- 广告
根据可视化需求对 Clickhouse 中的数据进行过滤和聚合
####实时需求应用场景
- 实时大屏
- 实时报告
- 实时推荐
- 实时预警
#### 5.2.1 MySQL主从复制过程
- master主库会改变记录写入二进制日志(binary log)
- 从库向mysql master发送dump协议,并将master master库的二进制日志事件复制到它的relay log中;
- 从库从库中读取并重做中继日志中的事件,将更改的数据同步到自己的数据库。
业务数据库数据采集
##### - 运河
**工作原理:** canal是java开发的基于数据库增量日志解析的中间件,提供增量数据订阅&消费。目前canal主要支持MySQL binlog解析,解析完成后使用canal客户端对获取的相关数据进行处理。
##### - 麦克斯韦
**工作原理:**伪装成奴隶,假装从主人那里复制数据
##### - debezium
#####-flinkx
### Maxwell 和 Cannal 工具比较
- Maxwell 没有 Canal 的 server+client 模式,只有一台 server 向消息队列或 redis 发送数据。
- Maxwell 的一大亮点是 Canal 只能捕获最新数据,不能处理现有的历史数据。而且Maxwell有bootstrap功能,可以直接引导完整的历史数据进行初始化,非常好用。
- Maxwell不能直接支持HA,但支持断点恢复,即错误解决后重启,继续读取上一点的数据。
- Maxwell 只支持 json 格式,Canal 使用 Server+client 模式可以自定义格式
- Maxwell 比 Canal 更轻巧。
- 当原创数据为数字类型时,maxwell会尊重原创数据的类型,不加双引号,改为字符串。canal 始终转换为字符串。
- 表结构将被带入运河数据。麦克斯韦更简洁。
**未完成(待补充)**