gpt4 book ai didi

java - Hadoop和jgit在java.io.file和dataoutputstream之间转换

转载 作者:行者123 更新时间:2023-12-01 14:44:42 27 4
gpt4 key购买 nike

您好,我正在尝试在 git 存储库上运行映射缩减作业。我想使用映射作业首先将所有存储库同时克隆到 hdfs,然后对文件执行进一步的映射减少作业。我遇到了一个问题,因为我不确定如何将存储库文件写入 hdfs。我见过写入单个文件的示例,但这些示例位于映射器之外并且仅写入单个文件。 jgit api仅公开一个继承自file的文件存储库结构,但hdfs使用写入数据输出流的路径。有没有在两者之间进行转换的好方法或任何执行类似操作的示例?

谢谢

最佳答案

Hadoop Mapper 的输入数据必须位于 HDFS 上,而不是位于本地计算机或 HDFS 以外的任何位置。 Map-reduce 作业并不意味着将数据从一个地方迁移到另一个地方。它们用于处理 HDFS 上存在的大量数据。我确信您的存储库数据不是 HDFS,如果是,那么您首先不需要执行任何操作。因此,请记住,ma​​p-reduce 作业用于处理 HDFS(Hadoop 文件系统)上已有的大量数据。

关于java - Hadoop和jgit在java.io.file和dataoutputstream之间转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15553722/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com