文章采集器哪个好用(一下如何处理这些情况,你知道吗?(上))
优采云 发布时间: 2021-09-05 12:00文章采集器哪个好用(一下如何处理这些情况,你知道吗?(上))
本文介绍了“spark和flink哪个比较好”的知识点。在实际案例操作过程中,很多人都会遇到这样的困境。接下来就让小编带领大家一起学习如何应对这些情况吧!希望大家仔细阅读,有所收获!
同句开头,spark从批处理开始,发展到流处理,所以微批处理有优先权,可以用。
flink 开始是实时处理,然后是批处理,所以更适合实时场景。
那么制作真的需要如此高的实时性吗?
比如实时处理10wqps的数据,使用flink,sink是mysql,实时性高,事件驱动。每一项都插入或更新到数据库中,这显然是不可靠的,因为数据库无法容纳它。
如果要为这件事在flink的sink加批处理,肯定能提高性能,降低实时性,还有一个问题:
如果业务迁移,迁移到新的topic或者Kafka集群。数据迁移完成后,迁移flink任务。你会发现如果最后一个batch没有达到batch size阈值,数据就不会被flush out,导致数据丢失,因为没有写入新的数据,不会触发sink进行flush。
这种场景下还是需要加一个超时检测线程,超时一定的时间来刷新数据。
麻烦吗?
所以,事实上,在很多情况下,实时性可能并不那么重要。
另外,Spark Streaming 已经非常稳定了,flink 的 bug 比较多。
引用 kafkajsontablesource 的一个 bug。如果数据格式是json,可以直接反序列化解析注册为row,但是如果一条数据不是json,那么flink任务就会因为flink的内部算子挂掉,实现的只是一次处理,如果您不处理这些数据,您就不会停止。 Spark 不会出现。
有些不会列出。
但就研发而言,掌握还是最好的,flink在流处理领域确实很优秀。
“spark 和 flink 比较好用”的内容介绍到这里,谢谢阅读。想了解更多行业相关知识,可以关注Yisuyun网站,小编会为大家输出更多优质实用的文章!