尽管 mapred.output.compress=true，hadoop 流仍会生成未压缩的文件-6ren

尽管 mapred.output.compress=true，hadoop 流仍会生成未压缩的文件

转载作者：可可西里更新时间：2023-11-01 17:01:20

25

4

我像这样运行一个 hadoop 流作业:

hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar 
       -Dmapred.reduce.tasks=16
       -Dmapred.output.compres=true
       -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec
       -input foo
       -output bar
       -mapper "python zot.py"
       -reducer /bin/cat

我确实在输出目录中得到了 16 个包含正确数据的文件，但是这些文件没有被压缩:

$ hadoop fs -get bar/part-00012
$ file part-00012
part-00012: ASCII text, with very long lines

为什么 part-00012 没有压缩？
如何将我的数据集拆分为少量(比如 16 个)gzip 压缩文件？

附言。另见“Using gzip as a reducer produces corrupt data”

PPS。这是vw .

PPPS。我想我可以做 hadoop fs -get, gzip, hadoop fs -put, hadoop fs -rm 16次，但这似乎是一种非常非 hadoopic 的方式。

最佳答案

您的 mapred.output.compres 参数中有错字。如果您查看自己的工作经历，我敢打赌它已关闭。

此外，您还可以避免将 reduce-stage 放在一起，因为那只是整理文件。除非您特别需要 16 个零件文件，否则请尝试将其保留为仅贴图。

    hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar 
   -Dmapred.reduce.tasks=0
   -Dmapred.output.compress=true
   -Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec
   -input foo
   -output bar
   -mapper "python zot.py"

关于尽管 mapred.output.compress=true，hadoop 流仍会生成未压缩的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23767799/

25

4

0

文章推荐： hadoop - mapred.job.reduce.markreset.buffer.percent 的含义

文章推荐： http - Vibed:错误:411 需要长度

文章推荐： c++ - PE文件中的MZ签名有什么用？

java - 制作一个简单的视频 - 未压缩，逐帧
我需要一个算法，将帧(图片)写入一个文件，该文件可以被一些视频剪辑/制作软件读取以进行处理。所以我得到了框架，我想给他们一个函数/方法的输入。让我们用 Java 来做吧。我该怎么做？有没有一种简单
java - 我应该如何在不溢出堆的情况下处理大型(70MB 未压缩)字节流的解压？
我正致力于为我们的一些系统之间的交互实现 GZIP 压缩。这些系统是用 Java 和 C# 编写的，因此双方都使用了 GZIP 流，因为它们具有标准库支持。在 C# 方面，一切正常，包括我们最大的测
css - Rails 3 Assets 未压缩
我的 Assets 没有被压缩。我正在使用 3.2.18， Assets 组具有这些 gems: group :assets do gem "compass-rails" gem 'coffe
java - 在爆炸前更新 tomcat war 文件(未压缩)
这个问题在这里已经有了答案: Externalizing Tomcat webapp config from .war file (4 个答案) 关闭 7 年前。我的应用程序 WAR 已经内置了一
opencv - 如何选择全帧(未压缩)作为 VideoWriter 的编解码器
我想将来自设备的未压缩帧存储为视频，但我需要知道如何选择“全帧(未压缩)”作为 VideoWriter(在 emgu aka openCV 中)的编解码器。当我像这样传递 -1 时，我可以从下拉菜单
actionscript-3 - Flash 中的 XFL(未压缩)文件有什么用？
我注意到有些时候“另存为..”，上面写着“XFL 文件”“未压缩的 Flash 文件”。它有什么用？为什么我需要它而不是 FLA？最佳答案这是新的文件格式。它只不过是一个包含一个或多个 xml 之
visual-studio-2008 - WiX 生成的 MSI 未压缩
我使用WiX3生成MSI安装包。我已在中指定了压缩标志和元素: 但是生成的 MSI 根本没有被压缩 - WinZip 将其从 2M 压缩到 600K。我错过了什么吗？顺便说一句，我正在使用
jquery - Asp.Net CDN 压缩 JQuery 未压缩？
有谁知道 Asp.Net 内容交付网络上的 jQuery 文件的缩小版本未进行 gzip 压缩是否有原因？非缩小版本已正确压缩。示例: http://ajax.aspnetcdn.com/ajax/
swift - 由于内容长度严格，HTTP 加载失败 - 预计收到 : 3732, 收到 : 2661,(未压缩):0
当请求的内容长于表中的几行时，我在 Swift 4.2 中执行 HTTP 请求时遇到问题。我正在开发一个应用程序，需要显示 30 - 40 行的概述，每行包含 4-5 个变量。我使用 HTTPReq
c++ - 我如何在 c 中读取一个巨大的 .gz 文件(超过 5 gig 未压缩)
我有一些 .gz 压缩文件，未压缩时大约有 5-7gig。这些是平面文件。我写了一个程序，它接受一个未压缩的文件，并逐行读取它，效果很好。现在我希望能够打开内存中的压缩文件并运行我的小程序。我研
c# - 在图片框中显示/读取 8 位灰度(未压缩)TIFF 并使用 AForge.net c# 进行操作
我有一个灰度 TIFF 原始图像。我想在图片框中显示它，然后使用 AForge.Net 进行一些操作。我想知道最好的做法是什么。我无法显示图像 - 我要么得到黑色的“图片框”尝试转换为灰度时出现错误“

首页

博学

6Ren·AI

商城

尽管 mapred.output.compress=true，hadoop 流仍会生成未压缩的文件