gpt4 book ai didi

hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法

转载 作者:可可西里 更新时间:2023-11-01 16:24:34 29 4
gpt4 key购买 nike

我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS,然后将其移动到 Hbase,最后将这些数据汇总到数据集市 (sqlServer)。

我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)

最佳答案

我会回应上面的评论。 Kafka Connect,它是 Apache Kafka 的一部分。有了这个,您只需使用配置文件从您的源流式传输,您可以使用 KSQL 创建派生/丰富/聚合流,然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/等等等等

有一个 Kafka Connect 连接器列表 here .

本博客系列介绍了基础知识:

关于hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46180103/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com