gpt4 book ai didi

hadoop - 向正在运行的 hadoop 集群添加新文件

转载 作者:可可西里 更新时间:2023-11-01 15:05:22 25 4
gpt4 key购买 nike

假设您有 10GB 数据,并且您希望通过使用 Hadoop 的 MapReduce 程序来处理它们。我不想在开始时将所有 10GB 复制到 HDFS 然后运行程序,而是想例如复制 1GB 并开始工作并在此期间逐渐添加剩余的 9GB。我想知道在 Hadoop 中是否可行。

谢谢,莫特萨

最佳答案

不幸的是,这在 MapReduce 中是不可能的。当您启动 MapReduce 作业时,设置过程的一部分是确定输入的 block 位置。如果输入只是部分存在,设置过程将只对这些 block 起作用,不会动态添加输入。

如果您正在寻找流处理器,请查看 Apache Storm https://storm.apache.org/或 Apache Spark https://spark.apache.org/

关于hadoop - 向正在运行的 hadoop 集群添加新文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31108698/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com