gpt4 book ai didi

apache-flink - 使用 Apache Flink 进行数据流式传输

转载 作者:行者123 更新时间:2023-12-02 03:14:41 25 4
gpt4 key购买 nike

我正在构建满足以下要求的应用程序,我才刚刚开始使用 flink。

  • 使用 50 个分区将数据提取到 Kafka(传入速率 - 100,000 条消息/秒)
  • 从 Kafka 读取数据并实时处理每个数据(做一些计算,与旧数据比较等)
  • 将输出存储在 Cassandra 上

我一直在寻找一个实时流媒体平台,发现 Flink 非常适合实时和批处理。

  • 您认为 flink 是否最适合我的用例,或者我应该使用 Storm、Spark 流式处理还是任何其他流式处理平台?
  • 我是否需要在 google 数据流中编写数据管道以在 flink 上执行我的步骤序列,或者是否有任何其他方法来执行实时流式处理的步骤序列?
  • 假设我的每次计算大约需要 20 毫秒,我该如何使用 flink 更好地设计它并获得更好的吞吐量。
  • 我可以使用 Redis 或 Cassandra 在 flink 中为每次计算获取一些数据吗?
  • 我可以在 flink 中使用 JVM 内存缓存吗?
  • 我还可以根据某个时间窗口(例如 5 秒)内的键聚合数据。例如,假设有 100 条消息传入,其中 10 条消息具有相同的 key ,我能否将具有相同 key 的所有消息组合在一起并进行处理。
  • 是否有任何关于使用 flink 的最佳实践的教程?

感谢并感谢您的所有帮助。

最佳答案

鉴于您的任务描述,Apache Flink 看起来很适合您的用例。

一般情况下,Flink 提供low latency and high throughput并有一个参数来调整这些。您可以从 Redis 或 Cassandra 读取和写入数据。但是,您也可以 store state internally in Flink . Flink 也有 sophisticated support for windows .您可以阅读 blog on the Flink website , 查看 documentation了解更多信息,或关注此 Flink training学习 API。

关于apache-flink - 使用 Apache Flink 进行数据流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37738102/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com