gpt4 book ai didi

java - 使用java代码将数据从postgresql迁移到hdfs

转载 作者:可可西里 更新时间:2023-11-01 16:36:49 26 4
gpt4 key购买 nike

我是 Hadoop 新手,任务是使用 Java 代码将结构化数据迁移到 HDFS。我知道 Sqoop 可以完成同样的任务,但这不是我的任务。

有人可以解释一下执行此操作的可能方法吗?

我确实尝试过这样做。我所做的是使用 jdbc 驱动程序从 psql 服务器复制数据,然后将其以 csv 格式存储在 HDFS 中。这是解决此问题的正确方法吗?

我读到 Hadoop 有自己的数据类型来存储结构化数据。你能解释一下这是怎么发生的吗?

谢谢。

最佳答案

最先进的技术是使用(pull ETL)sqoop 作为常规批处理从 RDBM 获取数据。然而,这种方式对 RDBMS 来说既资源消耗(通常 sqoop 运行多个线程和多个 jdbc 连接),又花费很长时间(通常你在RDBMS),并导致数据损坏(实时 RDBMS 更新,而这个长的 sqoop 进程“总是迟到”)。

然后存在一些替代范例(push ETL)并且正在成熟。背后的想法是构建监听 RDBMS 的变更数据捕获流。 An example project is debezium .然后,您可以构建一个实时 ETL,同步 RDBMS 和 Hadoop 或其他地方的数据仓库。

关于java - 使用java代码将数据从postgresql迁移到hdfs,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50641665/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com