gpt4 book ai didi

apache-flink - Apache Flink 中的存储

转载 作者:行者123 更新时间:2023-12-04 23:19:15 27 4
gpt4 key购买 nike

处理完那数百万个事件/数据后,存储信息的最佳位置在哪里可以说值得保存数百万个事件?我看到一个 pull request已关闭 by this commit提到 Parquet 格式,但是,默认是 HDFS?我担心的是在保存(在哪里?)之后,是否很容易(快速!)检索该数据?

最佳答案

Apache Flink 不与特定的存储引擎或格式耦合。存储 Flink 计算结果的最佳位置取决于您的用例。

  • 您是在运行批处理作业还是流式作业?
  • 你想对结果做什么?
  • 您是否需要对数据进行批量(全扫描)、点或连续流访问?
  • 数据有什么格式?扁平结构(关系)、嵌套、blob、...

  • 根据这些问题的答案,您可以从各种存储后端中进行选择,例如
    - 用于批量访问的 Apache HDFS(具有不同的存储格式,如 Parquet、ORC、自定义二进制)
    - Apache Kafka 如果您想以流的形式访问数据
    - 用于点访问数据的键值存储,例如 Apache HBase 和 Apache Cassandra
    - 一个数据库,如 MongoDB、MySQL、...

    Flink 为大多数这些系统提供了 OutputFormats(一些通过 Hadoop OutputFormats 的包装器)。 “最佳”系统取决于您的用例。

    关于apache-flink - Apache Flink 中的存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31951978/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com