技术和经验:大数据技术栈之-数据采集

优采云 发布时间: 2022-12-07 05:11

  技术和经验:大数据技术栈之-数据采集

  介绍

  数据仓库的基础是数据。没有数据,数据仓库就是一个空壳。有许多数据来源。我们需要按照一个规则和流程制定一个采集方案,根据数据的特点和用途选择合适的方案。采集程序和数据采集一般分为全量和增量,对于一些业务场景,需要两者配合使用。

  数据采集完整计划

  全卷是指一次采集所有的数据,比如按照天数/月数。如果数据量很大,可能会比较耗时,而且会占用大量的存储空间。比如我们MySQL里面的数据,每天都需要同步。如果每天都同步,就会有很多重复数据,因为MySQL每天都在原来的基础上添加数据,每天同步一个完整的副本,所以是冗余的。其余的数据,而且不是实时的,需要每天同步一个时间点。它的优点是数据比较完整,但是会占用很大的存储空间。

  增加

  因为每天全量同步数据,会占用大量存储空间,效率不高,所以一般采用增量同步,但是增量是基于全量的,所以全量同步是必需的,后面是增量同步,增量意味着数据会增加或者修改,所以同步起来会比较困难。如果不使用工具,需要根据时间戳进行同步,比如增加一个create_time字段和update_time字段。添加数据时,会设置当前时间,修改数据时更新修改时间,然后以当天日期为条件获取符合条件的数据,但有个问题就是数据不是那么真实——时间,因为需要主动获取数据,会因网络等原因造成误差。实时的时候,对数据库的压力比较大,所以我们需要另一种方式,那就是CDC。

  CDC全称为Change Data Capture,指的是识别并捕获数据库中数据的修改、删除、添加等变化,然后将这些变化以一定的方式记录下来,通过一定的机制传递给下游的Service,通过这个机制,可以减轻数据库的压力,数据更实时。比如MySQL的binglog机制就是CDC。

  

  数据 采集 工具

  数据采集工具分为全量采集和增量采集

  完整的 采集

  采集工具有很多,比如Sqoop、kettle、DataX。下面主要说一下DataX。DataX可以实现各种数据之间的转换。如果DataX自带的数据源不能满足我们的需求,也可以自己实现,DataX由一个Writer和一个Reader组成,Reader是数据提供者,Writer是数据需求者,比如mysqlreader,doriswriter,就是将mysql的数据同步到doris。

  DataX 只需要简单的安装。安装后只需要写一个json转换文件,然后执行json脚本即可。执行脚本后,数据同步将开始。但是,我们的同步任务可能一天执行一次。如果任务很多,那么每天执行脚本会很麻烦,这时可以使用定时任务,linux可以使用crond进行定时调度,但是如果使用cronb则无法监控任务的成功或失败,而且不能对任务进行统计,所以我们需要一个统一的任务调度平台,比如Azkaban、DepinSchudeler等,后面会用到。

  增量采集

  对于增量同步,我们需要用到CDC工具,比如Flume可以采集日志,canal可以实时同步mysql数据到其他中间件,而Maxwell,Debezium,Flink也有一个组件flink cdc,我们可以根据到业务需要选择,再说说flink cdc。

  

  在传统的CDC架构中,我们一般是先通过CDC工具将数据写入Kafka,然后通过Flink或者Spark从Kafka中读取数据进行流处理后写入数据仓库,如下图。

  使用flink cdc后,整个链接会变得很短,省去了中间的Debezium、kafka和流处理,flink cdc一步到位,flink cdc的底层采集工具也是基于Debezium实现,如下图。

  Flink cdc 支持多种数据连接器。可以说我们可能需要写一行代码。我们只需要写sql,做一些简单的配置,就可以实现数据的增量同步。它的本质其实和flink的source sink一样,source是数据的来源,sink同步到对应的目标数据源。如果我们使用flink,我们需要添加一些中间件并编写代码。使用 flink cdc 就简单多了。只需要写sql就可以实现数据的连接、统计等。

  ❝

  今天的分享就到这里了,感谢大家的观看,我们下期再见,如果本文中有任何描述不正确或不合理的地方,请大家提出宝贵意见,让我们在学习中共同成长进步!

  解读:上海借助免费快速提升网站收录以及关键词排名的都不清楚

  不清楚如何快速提高 网站收录 和 关键词 的免费排名

  什么是WPcms插件,顾名思义,WPcms插件是搜索引擎优化过程中使用的辅助插件。今天博主就教大家使用免费的WPcms插件,快速提升网站收录和关键词的排名。这段时间很多SEO新手私信我,说自己对SEO没有完整的了解,不知道网站收录排名如何。今天博主就和大家聊一聊什么是SEO?搜索引擎优化,又称SEO,即是一种分析搜索引擎排名规则的方法,以了解各种搜索引擎如何进行搜索,如何抓取互联网页面,以及如何确定特定关键词的排名搜索结果。技术。

  网站搜索引擎优化的任务主要是了解其他搜索引擎如何抓取网页,如何索引,如何确定搜索关键词等相关技术,从而优化本站内容网页,确保与用户浏览习惯一致,在不影响网民体验的情况下提高搜索引擎排名,从而增加网站访问量,最终提高网站宣传或销售能力 现代技术。基于搜索引擎优化处理,其实就是让这个网站更容易被搜索引擎接受。搜索引擎往往会比较不同的网站内容,然后使用浏览器以最完整、最直接、最快捷的方式上传内容。

  每个人都想做好seo,但是除了一些做seo多年的seoer对seo有正确的态度,知道要做好seo需要很多东西外,很多seo新手对seo的认识并不完整,特别是提到我对插件或工具不太了解时。今天博主就教大家使用免费的WPcms插件,快速提升网站收录和关键词的排名。

  1.使用免费WPcms采集大量文章内容

  1.通过WPcms生成行业相关词,关键词来自下拉词、相关搜索词、长尾词。它可以设置为自动删除不相关的单词。通过WPcms插件实现自动化采集行业相关文章,一次可以创建几十个或上百个采集任务,同时支持多个域名任务同时 采集。

  2.自动过滤其他网站促销信息

  3、支持多采集来源采集(涵盖全网行业新闻源,海量内容库,采集最新内容)

  4.支持图片本地化或存储到其他平台

  5.全自动批量挂机采集,无缝对接各大cms发布商,采集自动发布并推送至搜索引擎

  

  详细解释:如果一个网站想要有很多关键词的排名,它必须有很多的收录,

  要拥有大量 收录,您必须拥有大量内容。而这个 采集 工具就是为了拥有大量的内容!

  2.免费WPcms插件-SEO优化功能

  1.设置标题的前缀和后缀(标题的区分度更好收录)

  2.内容关键词插入(合理增加关键词密度)

  3.随机图片插入(文章没有图片可以随机插入相关图片)

  4、搜索引擎推送(文章发布成功后,主动将文章推送给搜索引擎,保证新链接能及时被搜索引擎收录获取)

  5.随机点赞-随机阅读-随机作者(增加页面原创度)

  6.内容与标题一致(使内容与标题100%相关)

  7、自动内链(在执行发布任务时,在文章内容中自动生成内链,有助于引导页面蜘蛛爬行,增加页面权重)

  8、定时发布(定时发布网站内容可以让搜索引擎养成定时抓取网页的习惯,从而提高网站的收录)

  

  详细解释: 通过以上SEO功能,增加网站页面的原创度,增加网页关键词的密度,吸引蜘蛛爬取更多页面。

  3.免费WP cms插件-批量管理网站

  1. 批量监控不同的cms网站数据(无论你的网站是帝国、易游、ZBLOG、织梦、WP、小旋风、站群、PB、苹果、搜外等各大cms,可以同时管理和批量发布的工具)

  2.设置批量发布次数(可设置发布间隔/每天发布总数)

  3.可以设置不同的关键词文章发布不同的栏目

  4、伪原创保留字(在文章原创中设置核心字不要为伪原创)

  5、软件直接监控已发布、待发布、是否伪原创、发布状态、URL、程序、发布时间等。

  6、通过软件可以直接查看蜘蛛、收录、网站的每日体重!

  详细解释:批量管理网站工具,可以在本地电脑修改,直接批量发布到站点后台,可以批量管理网站和查看网站数据,没有不再需要频繁登录后台查看。

  做网站,既要讲究效率,又要讲究细节。如果效率提高了,细节做好了,网站的排名流量自然会增加!看完这篇文章,如果您觉得还不错,不妨采集或转发给有需要的朋友同事二脉!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线