hadoop:lzo 压缩的自动拆分输出-6ren

hadoop:lzo 压缩的自动拆分输出

转载作者：可可西里更新时间：2023-11-01 14:47:32

25

4

我正在设置 lzo 编解码器以用作我的 hadoop 作业中的压缩工具。我知道 lzo 具有创建可拆分文件的理想功能。但是我还没有找到让 lzo 自动创建可拆分文件的方法。到目前为止我读过的博客都提到在作业外使用索引器并将输出 lzo 文件作为 mapreduce 作业的输入。

我正在使用一些 hadoop 基准测试，我不想更改基准测试代码，只是在 hadoop 中使用 lzo 压缩来查看它对基准测试的影响。我计划使用 lzo 作为压缩 map 输出的编解码器，但如果输出不可拆分，则下一阶段必须在节点中获取整个压缩输出才能工作。

是否有任何 hadoop 配置选项指示 lzo 使输出文件可拆分，以便透明地完成？

最佳答案

BZIP2 在 hadoop 中是可拆分的 - 它提供了非常好的压缩比，但从 CPU 时间和性能来看并没有提供最佳结果，因为压缩非常消耗 CPU。

LZO 在 hadoop 中是可分割的——利用 hadoop-lzo 你有可分割的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 在 hadoop 中是可分割的——利用 hadoop-4mc，你有可分割的压缩 4mc 文件。您不需要任何外部索引，并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成存档。 4mc 在 hadoop LZ4 上提供任何级别的速度/压缩率:从达到 500 MB/s 压缩速度的快速模式到提供更高压缩率的高/超模式，几乎与 GZIP 相当。

ZSTD 是更好的压缩，hadoop-4mc 也支持。

关于hadoop:lzo 压缩的自动拆分输出，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16805326/

25

4

0

文章推荐： windows - Windows 中的 svn/ssh 问题

文章推荐： javascript - Node.cloneNode() 与 DOM 规范不一致

文章推荐： html - 为什么IE对border-style应用不透明度: dotted?

文章推荐： windows - 如何获取存储在主机中的文件？

jqueryscrollLeft 自动？
我想做的是，如果鼠标位于“下一个”按钮上，它会以慢速向右滚动，如果鼠标没有位于“下一个”按钮上，它会停止滚动？这是我的尝试http://jsfiddle.net/mdanz/nCCRy/14/ $(
.net - 自动 StyleCop
StyleCop 是一个很棒的视觉工作室小插件。但它不会向您显示实时提示或提供任何自动修复。随之而来的是 reSharper 和 StyleCop for reSharper，这是理想的解决方案，但
elasticsearch - 将MatchQuery的模糊性设置为“自动”
我为我的MatchQuery使用了模糊性选项，但是我想将模糊性值设置为auto。有什么办法吗？另外，对于完成建议程序，您可以将其设置为支持unicode，对于我的MatchQuery，有什么方法可以
java 将表行映射到对象(自动)
我想从表中获取一行[字符串名称，字符串密码，int 某些内容]并将其映射到一个 User 对象，该对象具有 3 个属性，如上面的 getter 和 setter有什么方法可以自动完成吗？我考虑过反射，
c# - 自动 .ToString()？
我有一个像这样的方法:void m1(string str) 并且有一个像这样的类: public class MyClass { public bool b1 { set; get; }
javascript - 自动$广播数据
我正在尝试使用 $rootScope 从一个 Controller 向另一个 Controller $broadcast 一些数据。如果我使用像 ng-click 这样的触发器来运行将广播的功能，它
mysql - 自动/手动缓存的优缺点
我考虑了很多关于是要使用完全自动化的缓存还是手动缓存。我们的自动方法是一种解决方案，它可以挖掘数据库、查询和格式化每个潜在和 future 的数据请求，并将其保存到适当的缓存存储(内存缓存或基于磁盘
css 悬停替代(自动)
我的 CSS 必须使用过渡来更改，直到现在我都使用 div:hover 来实现。当您单击另一个 div 时需要激活过渡，而不是当您将鼠标悬停在必须移动/更改的 div 上时。我该怎么做？谢谢永
快速动画持续时间，即使我不想(自动？)
在我的应用程序中，我需要一些动画，但如果它已经设置了动画，则不需要持续时间。但我的问题是它会自动添加持续时间。在这里你可以看到 2 个函数，第二个没有持续时间但它确实有持续时间(可能从 1 秒开始)
php - 自动 uploader
两年前，我需要制作一个工具，通过 POST 自动将 txt/csv 文件上传到我的 Web 服务器，然后使用 cronjob 通过 PHP 对其进行解析。这有两次在每天午夜自动发生。尽管这行得通，但
c - 函数参数中的数组名称的处理方式是否与本地声明的数组不同(自动)
请阅读下面程序中的评论: #include void test(char c[]) { c=c+2; //why does this work ? c--; printf("%
c++ - 自动/静态内存分配
也许是个幼稚的问题，但是...... 确认或拒绝: 自动和静态存储持续时间的对象/变量的内存的存在是在编译时确定的，程序运行时失败的可能性绝对为零，因为没有足够的内存用于自动对象。自然地，当自动对象
c# - 自动 INotifyPropertyChanged
有没有什么方法可以自动获得类中属性更改的通知，而不必在每个 setter 中都编写 OnPropertyChanged？ (我有数百个属性，我想知道它们是否已更改)。安东建议 dynamic pro
azure-pipelines - 基于源分支的不同合并策略(自动)
我们在使用 Azure DevOps 的项目中采用了 gitflow 流程。我有以下场景: 当功能分支合并到 Develop 时，我想在完成拉取请求的同时执行压缩合并策略当 Release 分支定期
AngularJS 自动 HTML 编码符号
我的网站上有一个评论部分，我将 html 编码的评论保存在我的数据库中。所以我添加了这条评论- "testing" `quotes` \and backslashes\ and html 并将其保存在
签到前 TFS 自动 checkout
是否存在“ checkin 前 TFS 自动 checkout ”这样的功能，以便在我说“ checkin ”之前我不会 checkout 任何文件，例如以防我只是临时更改文件 - 这一直发生。换句
apache - 自动 Apache 服务器维护页面
我有一个运行在 Linux/Apache/Tomcat 堆栈上的网站，它需要每隔几个月自动脱机以进行服务器维护，这将持续任意时间。有哪些选项可以让 Apache 建立和取消“服务器维护”页面？我需要
vba - 自动 Excel 首字母缩写词查找和定义添加
我经常在工作中创建文档，在公司内部，由于我们使用的首字母缩写词和缩写词的数量，我们几乎拥有自己的语言。因此，我厌倦了在发布文档之前手动创建首字母缩写词和缩写表，并且快速的谷歌搜索发现了一个可以有效地为
Excel:是否存在检测计算模式变化的事件(自动/手动)
我希望在用户或宏将计算模式从自动更改为手动或手动更改为自动时运行代码。是否有为此触发的事件？ (属性是 Application.Calculation 在 Excel 互操作中。) 使用 Excel
bash - 自动 Bash 脚本
这个问题在这里已经有了答案: Repeat command automatically in Linux (13 个回答) 6年前关闭。我想创建一个脚本来获取另一个文件夹中的所有文件夹名称。并为这些

首页

博学

6Ren·AI

商城

hadoop:lzo 压缩的自动拆分输出