gpt4 book ai didi

hadoop - 增量更新 HDFS 上的数据

转载 作者:可可西里 更新时间:2023-11-01 14:58:56 27 4
gpt4 key购买 nike

我们正在使用 Sqoop 将数据从各种来源(例如 Oracle、Teradata)复制到 HDFS。我们使用增量更新功能来“导入” 数据,然后将其与现有数据“合并”。数据首先填充到一个临时目录中,然后我们“删除”旧目录并“重命名”新目录。

问题是,如果用户在我们交换目录时使用 Hive 等工具对 HDFS 上的数据运行查询,查询将异常终止。

有没有更好的方法来处理 HDFS 上的更新?

(请注意,尽管 HBase 保留不同的版本,但它对我们不起作用,因为我们想按任何列进行查询。在不按主键搜索的情况下,HBase 非常慢。)

最佳答案

Hadoop 并不是为那样工作而设计的。它适合存储数据但不适合编辑。我只想在旧数据旁边添加新数据,在添加它(复制或任何其他导入)时,您可以将后缀 .tmp 添加到文件名。但是我没有那么多地使用配置单元(这里是 pig 用户),在 pig 中我可以告诉 A = LOAD '/some/path/to/hdfs/*.log' 并且这将加载除正在导入的 .tmp 之外的所有文件。这样就没有问题了。

关于hadoop - 增量更新 HDFS 上的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22802024/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com