gpt4 book ai didi

hadoop - 我应该如何将我的事件流保存到冷存储?

转载 作者:可可西里 更新时间:2023-11-01 14:28:50 27 4
gpt4 key购买 nike

我有一个事件流(我们也可以称它们为“消息”或什至只是“数据”)来自一个基于时间的保留的事件代理。事件代理可以是 KafkaAmazon KinesisMicrosoft Event Hubs ,尽管假设它是 Kafka。

我的目标是获取此事件流并将其放入冷存储;也就是说,存储数据以供将来通过 Hadoop/Spark 进行分析。这意味着我想获取这个“喋喋不休”的事件流并将其转换为 HDFS 中的“大块”文件。在云环境中,我可能会使用 S3 或 Azure 存储而不是 HDFS。

我还希望我的解决方案具有成本效益;例如,使用 Avro/ORC 等序列化格式来减少我的磁盘空间成本。我也喜欢一个至少一次的保证,即给定的事件被保存到冷库中(一次且仅一次的奖励积分)。

我的核心问题是:

  • 人们是如何解决这个问题的?
  • 是否有组件可以处理这种情况?
  • 我需要自己开发解决方案吗?
  • 至少,它们有推荐的模式吗?

最佳答案

嗯,我们正在使用 kafka 和 camus从kafka获取数据到HDFS。 Camus 支持 avro 序列化。您可以找到更多关于 camus 和 avro 的信息 here .

关于hadoop - 我应该如何将我的事件流保存到冷存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26665883/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com