file - Hadoop:将文件或文件路径发送到 map reduce 作业-6ren

file - Hadoop:将文件或文件路径发送到 map reduce 作业

转载作者：可可西里更新时间：2023-11-01 14:50:19

24

4

假设我有 N 个文件要使用 hadoop map-reduce 处理，让我们假设它们很大，远远超过 block 大小并且只有几百个。现在我想处理这些文件中的每一个，让我们假设字数统计示例。

我的问题是:创建一个输入为包含每个文件路径的文本文件的 map-reduce 作业与将每个文件直接发送到 map 函数(即连接所有文件)之间有什么区别并将它们插入不同的映射器[编辑]。

这些都是有效的方法吗？它们有什么缺点吗？

感谢您的及时回答，我已经详细描述了我的问题，因为我的抽象可能遗漏了一些重要主题:

我的应用程序在 Hadoop HDFS 上有 N 个小文件，我只需要处理每个文件。所以我使用映射函数将 python 脚本应用于每个文件(实际上是图像 [我已经查看了那里的所有 hadoop 图像处理链接])，我知道小文件问题，典型的建议是将较小的文件分组，这样我们就避免了移动文件的开销(基本建议使用序列文件或创建自己的数据结构，如 HIPI 的情况)。

这让我想知道我们不能告诉每个映射器查找他本地的文件并对其进行操作吗？

我还没有找到解决该问题的方法，这就是为什么我正在考虑将文件路径发送到每个映射器或它自己的文件。

为每个图像集合创建路径名列表似乎没问题，但正如评论中所述，我松开了数据局部性属性。

现在，当我查看 hadoop 流接口(interface)时，它提到不同的部分基于通常用于文本文件的 stdin 和 stdout 进行通信。这就是我感到困惑的地方，如果我只是发送路径名列表，这应该不是问题，因为每个映射器只会尝试查找分配给它的图像集合。但是当我查看字数统计示例时，输入是文件，然后在映射器和之间拆分，所以那时我很困惑是否应该将图像连接成组，然后像发送这些连接组一样将文本文档发送到不同的映射器，或者如果我应该连接图像，将它们留在 hadoop HDFS 中，然后将它们的路径传递给映射器 ...我希望这是有道理的...也许我完全离开这里...

再次感谢!

最佳答案

两者都有效。但是后者会产生额外的开销并且性能会下降，因为您正在谈论将所有文件连接成一个文件并将其提供给仅 1 个映射器。如果这样做，您将违背 Hadoop 的最基本原则之一，即 parallelism。并行性使 Hadoop 如此高效。

仅供引用，如果你真的需要这样做，你必须在你的 InputFormat 类中将 isSplittable 设置为 false，否则框架将拆分文件(基于你的 InputFormat ).

而就输入路径而言，你只需要给出输入目录的路径即可。此目录中的每个文件都将在没有人为干预的情况下进行处理。

HTH

响应您的修改:

我想你有点误解了这一点。您不必担心本地化。 Hadoop 负责这一点。你只需要运行你的工作，数据就会在它所在的节点上被处理。文件的大小与它无关。你不必告诉制图员任何事情。过程是这样的:

您将工作提交给 JT。 JT 指示在具有作业所需数据 block 的节点上运行的 TT 启动映射器。如果槽被其他进程占用，则在具有数据 block 的其他节点上也会发生同样的事情。

关于file - Hadoop:将文件或文件路径发送到 map reduce 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17417940/

24

4

0

文章推荐： ubuntu - 什么是 127.0.0.1. 127.0.0.1代表在/etc/hosts ubuntu？

文章推荐： java - 安装 Hadoop，关于索引 7 处非法字符的 Java 异常？

文章推荐： windows - `echo.` Windows 上生成失败

file - access to file to files tomcat的conf文件夹下的一个文件
我想知道是否可以访问放在 tomcat 的 conf 文件夹中的文件。通常我会在这个文件中放置多个 webapp 的配置，在 war 之外。我想使用类路径独立于文件系统。我过去使用过 lib 文件
PowerShell ForEach $file in $Files 中的每个 $file
我有一个 PowerShell 脚本，它获取文件列表并移动满足特定条件的文件。为什么即使对象为空，foreach 循环也会运行？我假设如果 $i 不存在，它就不会运行。但是如果 $filePath
java - File file = new File () 的路径错误
我已将 BasicAccountRule.drl 放置在我的 Web 应用程序中，位置为:C:/workspace/exim_design/src/main/resources/rules/drl/i
ruby - File.open ('file.txt' ) 与 File.open ('file.txt' ).readlines
我使用 File.open('file.txt').class 和 File.open('file.txt').readlines.class 以及前者进行了检查一个返回 File，后者返回 Arra
java - 即使 file.exists()、file.canRead()、file.canWrite()、file.canExecute() 都返回 true，file.delete() 也会返回 false
我正在尝试使用 FileOutputStream 删除文件，在其中写入内容后。这是我用来编写的代码: private void writeContent(File file, String fileC
python - FileNotFoundException :File file:/path/to/file/in. txt不存在或者运行Flink的用户没有足够的权限访问它
我正在尝试使用 flink 和 python 批处理 api 测试 Wordcount 经典示例。我的问题是，将数据源从 env.from_elements() 修改为 env.read_text()
c - 通过函数 : FILE* or FILE**? 的 FILE* 数组
我正在尝试制作一个可以同时处理多个不同文件的程序。我的想法是制作一个包含 20 个 FILE* 的数组，以便在我达到此限制时能够关闭其中一个并打开请求的新文件。为此，我想到了一个函数，它选择一个选项
linux - 狂欢 : Search Contents of File A in File B and Print lines of File A in File C
我有两个文件A和B文件A: 976464 792992 文件B TimeStamp,Record1,976464,8383,ABCD 我想搜索文件 A 和文件 B 中的每条记录并打印匹配的记录。打印的
java - 使用 Java 8 流将 Map 转换为 Map>
我有一些保存在 map 中的属性文件。示例: Map map = new HashMap<>(); map.put("1", "One"); map.put("2", "Two"); map.put(
file - Unix/庆典 : Reading A List of Files and Merge Them To A File
我正在尝试找出一个脚本文件，该文件接受一个包含文件列表的文件(每一行都是一个文件路径，即 path/to/file)并将它们合并到一个文件中。例如: list.text -- path/to/fil
c# - File.CreateText/File.AppendText 与 File.AppendAllText
为了使用 File.CreateText() 和 File.AppendText() 你必须: 通过调用这些方法之一打开流写消息关闭流处理流为了使用 File.AppendAllText()
Using rsync to rename files during copying with --files-from?(在复制过程中使用rsync重命名文件--files-from？)
使用rsync时，如何在使用--files-from参数复制时重命名文件？我有大约190，000个文件，在从源复制到目标时，每个文件都需要重命名。我计划将文件列表放在一个文本文件中传递给--files
java - "file:d:\\dir1\file.xml"和 "file:/d:\\dir1\file.xml"作为 FileSystemXmlApplicationContext 参数
我在非服务器应用程序中使用 Spring(只需从 Eclipse 中某个类的 main() 编译并运行它)。我的问题是作为 new FileSystemXmlApplicationContext 的
ksh - "test -a file"和 "test file -ef file"的区别
QNX (Neutrino 6.5.0) 使用 ksh 的开源实现作为其 shell 。许多提供的脚本，包括系统启动脚本，都使用诸如 if ! test /dev/slog -ef /dev/slog
PHP : Excel cannot open the file because the file format or file extension is not valid
当我尝试打开从我的应用程序下载的 xls 文件时，出现此错误: excel cannot open the file because the file format or file extension
c - "file pointer"、 "stream"、 "file descriptor"和... "file"之间的区别？
有一些相关的概念，即文件指针、流和文件描述符。我知道文件指针是指向数据类型 FILE 的指针(在例如 FILE.h 和 struct_FILE.h 中声明)。我知道文件描述符是 int ，例如成员
file - Groovy(文件IO): find all files and return all files - the Groovy way
好吧，这应该很容易... 我是groovy的新手，我希望实现以下逻辑: def testFiles = findAllTestFiles(); 到目前为止，我想出了下面的代码，该代码可以成功打印所有文
PowerShell:为什么 "Get-Content | Out-File -Append "会进入循环？
我理解为什么以下内容会截断文件的内容: Get-Content | Out-File 这是因为 Out-File 首先运行，它会在 Get-Content 有机会读取文件之前清空文件。但是当我尝
file - 类型错误 : invalid file: When trying to make a file name a variable
您好，我正在尝试将文件位置表示为变量，因为最终脚本将在另一台机器上运行。这是我尝试过的代码，然后是我得到的错误。在我看来，python 是如何添加“\”的，这就是导致问题的原因。如果是这种情况，我如何
bash - 一行文件的 "$(cat file)"、 "$(
我有一个只包含一行的输入文件: $ cat input foo bar 我想在我的脚本中使用这一行，据我所知有 3 种方法: line=$(cat input) line=$( input"...,

首页

博学

6Ren·AI

商城

file - Hadoop:将文件或文件路径发送到 map reduce 作业