gpt4 book ai didi

hadoop - 在 Hadoop 中如何处理每天增加的数据

转载 作者:可可西里 更新时间:2023-11-01 16:34:38 29 4
gpt4 key购买 nike

在Hadoop中如何处理每天增长的数据:

例如:

第一天我可能在某个输入文件夹(例如 hadoop/demo)中有 100 万个文件

第 2 天,在同一文件夹中,文件可能会从现有的 100 万个文件 + 另一个新的 100 万个文件增加到总共 200 万个。

同样第 3 4 天...继续。

我的约束是 -> 第一天的文件不应在第二天处理。

(即)当添加新文件时,不应再次处理已经处理的文件。更具体地说,应该只处理新添加的文件,而忽略较旧的文件。

所以请帮助我解决这个问题。

不过,如果您不理解该约束,请指出不清楚的地方,以便我可以详细说明我的约束!

最佳答案

它不是 hadoop 本身支持的东西,因为它是应用程序逻辑的一部分。我会建议一些基于 HDFS 的解决方案,因此您将拥有尚未处理数据的目录(或更好的目录层次结构,每天都有子目录)。
你的日常工作应该把所有数据都放在那里,处理它并移动到“已处理”文件夹。
通常有意义的权衡是以某些文件的意外双重处理不会引起问题的方式来制定逻辑。
。在这种情况下作业在处理后崩溃,但在移动之前不会出现问题。
您可以使用一些 wokrflow 工具(例如 oozie)来代替每日计划,该工具能够通过数据可用性触发作业,尽管我个人还没有使用过它们。

关于hadoop - 在 Hadoop 中如何处理每天增加的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9225092/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com