gpt4 book ai didi

map - 同步hadoop中的多个map reduce作业

转载 作者:行者123 更新时间:2023-12-02 20:12:12 26 4
gpt4 key购买 nike

我有一个用例,其中多个作业可以同时运行。所有作业的输出将必须与HDFS(包含键值对)中的通用主文件合并,该文件没有重复项。我不确定如何避免在这种情况下可能出现的竞争状况。例如,作业1和作业2同时将相同的值写入主文件,从而导致重复。感谢您的帮助。

最佳答案

Apache Hadoop不支持并行写入同一文件。这是reference

Files in HDFS are write-once and have strictly one writer at any time.



因此,多个 map /作业无法同时写入同一文件。必须编写另一个作业/ shell或任何其他程序以合并多个作业的输出。

关于map - 同步hadoop中的多个map reduce作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13169636/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com