文章采集器哪个好用(一下如何处理这些情况，你知道吗？（上）)

优采云发布时间: 2021-09-05 12:00

　　本文介绍了“spark和flink哪个比较好”的知识点。在实际案例操作过程中，很多人都会遇到这样的困境。接下来就让小编带领大家一起学习如何应对这些情况吧！希望大家仔细阅读，有所收获！

　　同句开头，spark从批处理开始，发展到流处理，所以微批处理有优先权，可以用。

　　flink 开始是实时处理，然后是批处理，所以更适合实时场景。

　　那么制作真的需要如此高的实时性吗？

　　比如实时处理10wqps的数据，使用flink，sink是mysql，实时性高，事件驱动。每一项都插入或更新到数据库中，这显然是不可靠的，因为数据库无法容纳它。

　　如果要为这件事在flink的sink加批处理，肯定能提高性能，降低实时性，还有一个问题：

　　如果业务迁移，迁移到新的topic或者Kafka集群。数据迁移完成后，迁移flink任务。你会发现如果最后一个batch没有达到batch size阈值，数据就不会被flush out，导致数据丢失，因为没有写入新的数据，不会触发sink进行flush。

　　这种场景下还是需要加一个超时检测线程，超时一定的时间来刷新数据。

　　麻烦吗？

　　所以，事实上，在很多情况下，实时性可能并不那么重要。

　　另外，Spark Streaming 已经非常稳定了，flink 的 bug 比较多。

　　引用 kafkajsontablesource 的一个 bug。如果数据格式是json，可以直接反序列化解析注册为row，但是如果一条数据不是json，那么flink任务就会因为flink的内部算子挂掉，实现的只是一次处理，如果您不处理这些数据，您就不会停止。 Spark 不会出现。

　　有些不会列出。

　　但就研发而言，掌握还是最好的，flink在流处理领域确实很优秀。

　　“spark 和 flink 比较好用”的内容介绍到这里，谢谢阅读。想了解更多行业相关知识，可以关注Yisuyun网站，小编会为大家输出更多优质实用的文章！

0

2021-09-05

文章采集器哪个好用

0 个评论

要回复文章请先登录或注册