Hadoop 流式传输 : single file or multi file per map. 不要拆分-6ren

Hadoop 流式传输 : single file or multi file per map. 不要拆分

转载作者：可可西里更新时间：2023-11-01 14:50:30

24

4

我有很多 zip 文件需要由 C++ 库处理。所以我用C++写了我的hadoop流媒体程序。该程序将读取一个 zip 文件，将其解压缩，并处理提取的数据。我的问题是:

我的映射器无法准确获取一个文件的内容。它通常会得到 2.4 文件或 3.2 文件之类的东西。 Hadoop 将向我的映射器发送多个文件，但至少有一个文件是部分文件。你知道 zip 文件不能这样处理。我可以为每张 map 获取一个文件吗？我不想使用文件列表作为输入并从我的程序中读取它，因为我想利用数据局部性的优势。
如果 Hadoop 不拆分 zip 文件，我可以接受每个 map 的多个 zip 文件的内容。我的意思是 1、2、3 个文件，而不是 2.3 个文件。实际上它会更好，因为我的程序需要加载大约 800MB 的数据文件来处理解压缩的数据。我们可以这样做吗？

最佳答案

您可以在这里找到解决方案:

http://wiki.apache.org/hadoop/FAQ#How_do_I_get_each_of_a_job.27s_maps_to_work_on_one_complete_input-file_and_not_allow_the_framework_to_split-up_the_files.3F

我建议的最简单方法是将 mapred.min.split.size 设置为一个较大的值，这样您的文件就不会被拆分。

如果这不起作用，那么您需要实现一个InputFormat，这不是很难做到，您可以在以下位置找到步骤:http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat

关于Hadoop 流式传输 : single file or multi file per map. 不要拆分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14027594/

24

4

0

文章推荐：在 hadoop 中加入文件 A、B、C

文章推荐： html - 如何从 html 链接到 google chrome 下载页面？

文章推荐： Hadoop 的 Capacity Scheduler - 设置多个队列

【不要】重复自己*——如何为现代机器学习设计开源库
不要重复自己* 如何为现代机器学习设计开源库 🤗 Transformers 设计理念 “不要重复自己 (Don’t Repeat Yourself)” ，或 DR
GIT，不要 merge 特定文件
我有这种情况。我有 2 个分支，master 和 develop。在开发分支上我有一些文件，比如说 tools.js .如果我需要更改这个文件，提交它并将其推送到 Github 开发分支。一切完成
javascript - 我怎样才能看到上传图片的预览(不要!)然后保存它的地址？
我要上传图片但首先我想查看图像预览，然后当用户单击另一个 asp:button 时，保存图像。对于预览部分，我使用以下代码: jQuery(document).ready(functi
clojure - 我的开始@Clojure - 自己的代码不起作用，不要
我是一名编程初学者，现在从 Python 切换到 Clojure。我正在研究一个质数代码，但我没有弄错。我也想练习递归 (defn true-division [n i] (= (/ n i) (
python - 不要 argparse 从命令行读取 unicode？
运行 Python 2.7 执行时: $ python client.py get_emails -a "åäö" 我得到: usage: client.py get_emails [-h] [-a
java - 计算同一类别内距离的“告诉-不要-询问”原则
根据我对“告诉-不要-询问”原则的理解，我的其他类不应该能够调用存储在任何其他类中的数据。因此，根据这一原则， setter/getter 是不受欢迎的。为了防止访问数据，它们通常写为: class
javascript - 有没有办法告诉Google Closure Compiler *不要*内联我的本地函数？
我在寻找什么: 我想使用SIMPLE模式最小化的出色功能，同时仅禁用一项特定功能(禁用内联本地功能)。更新:答案是否定的，根据我的设置是不可能的。但对于我来说，鉴于我正在使用Grails，有一种解
java - 计算同一类别内距离的“告诉-不要-询问”原则
根据我对“告诉-不要-询问”原则的理解，我的其他类不应该能够调用存储在任何其他类中的数据。因此，根据这一原则， setter/getter 是不受欢迎的。为了防止访问数据，它们通常写为: class
objective-c - UITableView 不要 float 部分标题
是否可以不 float 具有样式 UITableViewStylePlain 的 UITableView 的节标题？我正在 build AcaniChat, an open-source versi
git - 告诉 git 不要 merge 二进制文件而是选择
当二进制文件、swfs、jar 和 flvs 在本地更改时，我尝试 pull 入更改，git 尝试 merge 它们并报告冲突。然后，我分支到一个临时分支，提交本地更改的二进制文件，并在 pull
c# - 如何告诉 Pex 不要 stub 具有具体实现的抽象类
我正在尝试使用 Pex 来测试一些代码。我有一个具有四个具体实现的抽象类。我为四种具体类型中的每一种都创建了工厂方法。我还为抽象类型创建了一个，除了 this nice thread。说明，Pex 不
javascript - 如何告诉 Razor 不要 html 转义
我正在将 asp.net mvc 3 和 razor 用于一个项目。在某些情况下，我需要从 Controller 序列化一个数组，将其放入 View 数据并将其分配给一个 js 对象。但是当我使用输
ruby-on-rails - Webpack:将一些条目拆分为 block ，但其他条目 - 不要
是否可以让一个 webpack 开发服务器配置多个入口点(网站上有多个页面)，每个入口点都有不同的配置？具体来说，我希望将一个条目(页面的 JS 代码)分成 block ，但不要将另一个条目(带有已
java - 使用 sql 保存图像 hibernate (不要 hql)
我需要使用 hibernate 将 InputStream 或 byte[] (个人资料图像)保存在表中。这里的代码: @Override public void actualizarFotoPerf
android - 映射 : GMS works, HMS 不要；未调用 onMapReady
我在一个 android 项目中同时拥有 GMS 和 HMS。 GMS 版本有效，但 HMS 不调用 onMapReady 回调。这是代码: private var mMap: HuaweiM
Haskell:如何告诉 hlint 不要: `Warning: Use string literal`
我有一个单元测试文件: module X04PatMatTest where import AssertError import Test.HUnit import X04PatMat ... 和 h
c++ - 用 c 包装一个 c++ 库？ (不要 "extern c")
是否可以将 c++ 库包装到 c 中？我该怎么做？有现成的工具吗？ (需要访问现有的 c++ 库，但只能使用 C) 最佳答案您可以用 C 编写面向对象的代码，因此如果它是面向对象的 C++ 库，
html - 在 JSP 中显示 HTML 代码(不要 "render"HTML)
我有一个 JSP 页面，它接受 SQL 查询，执行它们然后将结果返回到一个表中。一些结果偶尔会在其中包含 HTML 标记，即 - 结果将返回: This is the returned result!
ios - 使用 Swift 3 将数据从 Modal Viewcontroller 传递到 rootController(不要 Segue)
我有一个问题。我需要帮助。我一直在寻找解决方案大约 5 个小时。不幸的是没有成功。我的问题是我有几个 Storyboard并且没有使用 Segue 创建。我希望将选定的 Tableviewcel
c - printf ("%s\n",str);给出段错误但 printf ("%s",str);不要，其中 "str"是一个字符串指针
当我尝试运行以下代码时: #include void main() { char *a[10] = {"hi", "hello", "how"}; int i = 0, j = 0;

首页

博学

6Ren·AI

商城

Hadoop 流式传输 : single file or multi file per map. 不要拆分