gpt4 book ai didi

hadoop - 如何将RDBMS数据与HDFS数据同步

转载 作者:行者123 更新时间:2023-12-02 20:39:25 25 4
gpt4 key购买 nike

我有包含300个表的Oracle数据库,并且所有类型的DML操作(插入/更新/删除)都在这些表上执行。我已经使用Sqoop将当前数据从RDBMS移动到HDFS。现在,无论何时执行任何DML操作,我都希望将实时数据与HDFS数据同步。我可以为此目的使用Kafka吗,它将支持更新和删除操作。

最佳答案

是的,在一定程度上。您可以stream databases into Kafka,但是如何处理更新和删除HDFS的着陆取决于您如何从源中获取数据以及将数据着陆到HDFS的原因。
您可以使用HDFS sink从Kafka流式传输到HDFS,但这不会更新/删除HDFS中已经存在的数据。为此,您将需要一些自定义处理。

将数据登陆到HDFS并需要与DB实时同步的原因是什么?也许您正在寻找的模式可能不是最适合HDFS(通常不是实时技术)?

关于hadoop - 如何将RDBMS数据与HDFS数据同步,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50036051/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com