hadoop - 文件压缩格式和容器文件格式-6ren

hadoop - 文件压缩格式和容器文件格式

转载作者：可可西里更新时间：2023-11-01 14:36:42

24

4

一般来说，任何压缩格式如 Gzip，当与容器文件格式如 avro 和序列(文件格式)一起使用时，将使压缩格式可拆分。

这是否意味着容器格式中的 block 根据首选压缩(如 gzip)或其他方式进行压缩。有人可以解释一下吗？谢谢!

嗯，我认为这个问题需要更新。

更新:

我们是否有直接的方法将不可拆分文件压缩格式(如 Gzip)的大文件转换为可拆分文件(使用容器文件格式，如 Avro、Sequence 或 Parquet)以供 MapReduce 处理？

注意:我并不是要寻求解决方法，例如解压缩文件，然后使用可拆分压缩格式再次压缩数据。

最佳答案

对于序列文件，如果您指定BLOCK 压缩，每个 block 将使用指定的压缩编解码器进行压缩。 block 允许 Hadoop 在 block 级别拆分数据，同时使用压缩(压缩本身不可拆分)并跳过整个 block 而无需解压缩它们。

Hadoop wiki 上描述了其中的大部分内容:https://wiki.apache.org/hadoop/SequenceFile

Block compressed key/value records - both keys and values are collected in 'blocks' separately and compressed. The size of the 'block' is configurable.

对于 Avro，这也非常相似:https://avro.apache.org/docs/1.7.7/spec.html#Object+Container+Files

Objects are stored in blocks that may be compressed. Syncronization markers are used between blocks to permit efficient splitting of files for MapReduce processing.

Thus, each block's binary data can be efficiently extracted or skipped without deserializing the contents.

将数据从一种格式转换为另一种格式的最简单(通常也是最快)的方法是让 MapReduce 为您完成这项工作。在以下示例中:

GZip 文本 -> SequenceFile

您将拥有一个仅使用 TextInputFormat 进行输入和输出 SequenceFileFormat 的 map 作业。通过这种方式，您可以获得文件数量的一对一转换(如果需要更改，请添加减少步骤)，如果有大量文件要转换，则可以并行进行转换。

关于hadoop - 文件压缩格式和容器文件格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38521638/

24

4

0

文章推荐： windows - 批处理脚本循环变量

文章推荐： C++:控制台窗口有奇怪的边框..？

文章推荐： java - 在 Hadoop 中找不到类异常

javascript - 单击 [提交] -> 隐藏 DIV 容器 1 -> 显示 DIV 容器 2 -> 加载在 DIV 容器 2 中的 .PHP 文件中找到的 DIV
这是我想做的 1 - 点击提交 2 - 隐藏 DIV 容器 1 3 - 显示 DIV 容器 2 4 - 将“PricingDisclaimer.php”中找到的所有 DIV 加载到 Div 容器 2
ios - 如何访问另一个应用程序的 iCloud 容器(使用另一个开发人员配置文件开发的应用程序和在该配置文件中创建的 icloud 容器)？
我有一个 ios 应用程序，它使用 iCloudcontainer 来保存用户的一些数据，例如用户的“到期日期”。我要用不同的方式创建应用程序的副本开发者账号。我要将用户从第一个应用程序迁移到第二个应
docker - 如何从一个 docker 容器 ssh 到另一个 docker 容器？
这是场景。我有三个容器。 Container1、container2 和 container3(基于 Ubuntu 的镜像)，其中 container2 充当容器 1 和容器 2 之间的路由器。我
java - 容器是什么意思？ Web 容器、JSP 容器还是 Spring 容器？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
docker - Jenkins:从与代理(另一个 Docker 容器)一起运行的阶段连接到 Docker 容器
我正在改造管道以使用声明式管道方法，以便我能够 to use Docker images在每个阶段。目前我有以下工作代码，它执行连接到在 Docker 容器中运行的数据库的集成测试。 node {
java - 部署到 Web 容器、捆绑 Web 容器或嵌入 Web 容器
我正在开发一个需要尽可能简单地为最终用户安装的应用程序。虽然最终用户可能是经验丰富的 Linux 用户(或销售工程师)，但他们对 Tomcat、Jetty 等并不真正了解，我认为他们也不应该了解。所
kubernetes - 无法获取cpu pod指标，k8s-容器-容器-shim-runsc-v1-gvisor
我从gvisor-containerd-shim(Shim V1)移到了containerd-shim-runsc-v1(Shim V2)。在使用gvisor-containerd-shim的情况下，
docker-compose - docker 容器 A 可以使用什么 URL 访问另一个 docker 容器 B(相同的开发机器，不同的项目)
假设我们只在某些开发阶段很少需要这样做(冒烟测试几个 api 调用)，让项目 Bar 中的 dockerized web 服务访问 Project Foo 中的 dockerized web 服务的最
docker - 使用 Windows 容器(而不是 Linux 容器)时如何在 Docker for Windows 10 中创建数据卷
各位，我的操作系统是 Windows 10，运行的是 Docker 版本 17.06.0-ce-win19。我在 Windows 容器中运行 SQL Server Express，并且希望将 SQL
Azure 容器
谁能告诉我，为什么我们不能在 Azure 存储中的容器内创建容器？还有什么方法可以处理，我们需要在 azure 存储中创建目录层次结构？最佳答案您无法在容器中创建容器，因为 Windows Azu
另一个容器内的c++容器
#include template struct Row { Row() { puts("Row default"); } Row(const Row& other) { puts
tomcat - 容器
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
06、RDF 容器
RDF容器用于描述一组事物例如，把一本书的所有作者列在一起 RDF容器有三种类型： <Bag> <Seq> <Alt> <rdf:
仅当基础类型执行相等时才实现相等的 F# 容器
编辑:从到目前为止添加的答案和评论看来，我没有正确解释我想要什么。下面是一个例子: // type not supporting any type of comparison [] [] type b
php - 有没有办法在子进程中传递服务/容器？
我正在测试 spatie 的异步项目。我创建了一个这样的任务。 use Spatie\Async\Task; class ServiceTask extends Task { protecte
Azure Blob 容器
我想使用 Azure Blob 存储来上传和下载文档。有一些公司可以上传和下载他们的文档。我想保证这些文件的安全。这意味着公司只能看到他们的文件。不是别人的。我可以在 blob 容器中创建多个文件夹
Azure 容器 - 与远程容器实例上的文件交互
我正在尝试与 Azure 中的容器实例进行远程交互。我已执行以下步骤: 已在本地注册表中加载本地镜像 docker load -i ima.tar 登录远程 ACR docker登录--用户名--密码
docker - 带有Dockerfile项目的Dokku多进程(容器)
我正在研究http://progrium.viewdocs.io/dokku/process-management/，并试图弄清楚如何从单个项目中运行多个服务。我有一个Dockerfile的仓库:
依赖于其他容器中的文件的 Docker 容器
我有一个想要容器化的单体应用程序。文件夹结构是这样的: --app | |-file.py <-has a variable foo that is passed in --configs
保留数据的 Docker 容器
我正在学习 Docker，并且一直在为 Ubuntu 容器制作 Dockerfile。我的问题是我不断获取不同容器之间的持久信息。我已经退出，移除了容器，然后移除了它的图像。在对 Dockerfil

首页

博学

6Ren·AI

商城

hadoop - 文件压缩格式和容器文件格式