hadoop - 有人可以向我解释 orcfiledump 的输出吗？-6ren

hadoop - 有人可以向我解释 orcfiledump 的输出吗？

转载作者：可可西里更新时间：2023-11-01 15:24:28

27

4

我的表 test_orc 包含(对于一个分区):

col1 col2 part1
abc  def  1
ghi  jkl  1
mno  pqr  1
koi  hai  1
jo   pgl  1
hai  tre  1

通过运行

hive --orcfiledump /hive/user.db/test_orc/part1=1/000000_0

我得到以下信息:

Structure for /hive/a0m01lf.db/test_orc/part1=1/000000_0 .  
2018-02-18 22:10:24 INFO: org.apache.hadoop.hive.ql.io.orc.ReaderImpl -  Reading ORC rows from /hive/a0m01lf.db/test_orc/part1=1/000000_0 with {include: null, offset: 0, length: 9223372036854775807} .  
Rows: 6 .  
Compression: ZLIB .  
Compression size: 262144 .  
Type: struct<_col0:string,_col1:string> .  

Stripe Statistics:   
  Stripe 1:   
    Column 0: count: 6 .  
    Column 1: count: 6 min: abc max: mno sum: 17 .  
    Column 2: count: 6 min: def max: tre sum: 18 .  

File Statistics:   
  Column 0: count: 6 .  
  Column 1: count: 6 min: abc max: mno sum: 17 .  
  Column 2: count: 6 min: def max: tre sum: 18 .  

Stripes:   
  Stripe: offset: 3 data: 58 rows: 6 tail: 49 index: 67 .  
    Stream: column 0 section ROW_INDEX start: 3 length 9 .  
    Stream: column 1 section ROW_INDEX start: 12 length 29 .  
    Stream: column 2 section ROW_INDEX start: 41 length 29 .  
    Stream: column 1 section DATA start: 70 length 20 .  
    Stream: column 1 section LENGTH start: 90 length 12 .  
    Stream: column 2 section DATA start: 102 length 21 .  
    Stream: column 2 section LENGTH start: 123 length 5 .  
    Encoding column 0: DIRECT .  
    Encoding column 1: DIRECT_V2 .  
    Encoding column 2: DIRECT_V2 .

条纹部分是什么意思？

最佳答案

首先，让我们看看 ORC 文件是什么样的。

现在上图和您的问题中使用了一些关键字!

Stripe - 存储在 ORC 文件中的一大块数据。任何 ORC 文件都被分成这些 block ，称为 strip ，每个 block 大小为 250 MB，其中包含索引数据、实际数据和存储在该 strip 中的实际数据的一些元数据。
Compression - 用于压缩存储数据的压缩编解码器。 ZLIB 是 ORC 的默认值。
索引数据 - 包括每列的最小值和最大值以及每列中的行位置。 (也可以包括位字段或布隆过滤器。)行索引条目提供偏移量，可以在解压缩 block 中查找正确的压缩 block 和字节。 请注意，ORC 索引仅用于选择 strip 和行组，而不用于回答查询。
行数据 - 实际数据。用于表扫描。
Stripe Footer - Stripe 页脚包含每一列的编码和流的目录，包括它们的位置。为了描述每个流，ORC 以字节为单位存储流的种类、列 ID 和流的大小。每个流中存储内容的详细信息取决于列的类型和编码。
Postscript - 保存压缩参数和压缩页脚的大小。
文件页脚 - 文件页脚包含文件中的 strip 列表、每个 strip 的行数以及每列的数据类型。它还包含列级聚合计数、最小值、最大值和总和。

现在!谈论您从 orcfiledump 的输出。

首先是有关文件的一般信息。名称、位置、压缩编解码器、压缩大小等。
strip 统计会列出你的ORC文件中的所有 strip 及其对应的信息。您可以查看有关整数列的计数和一些统计信息，例如最小值、最大值、总和等。
文件统计与#2 类似。只针对完整文件，而不是 #2 中的每个 strip 。
最后一部分，Stripe 部分，讨论文件中的每一列以及每一列的相应索引信息。

此外，您可以将各种选项与 orcfiledump 一起使用以获得“所需”结果。遵循方便的指南。

// Hive version 0.11 through 0.14:
hive --orcfiledump <location-of-orc-file>

// Hive version 1.1.0 and later:
hive --orcfiledump [-d] [--rowindex <col_ids>] <location-of-orc-file>

// Hive version 1.2.0 and later:
hive --orcfiledump [-d] [-t] [--rowindex <col_ids>] <location-of-orc-file>

// Hive version 1.3.0 and later:
hive --orcfiledump [-j] [-p] [-d] [-t] [--rowindex <col_ids>] [--recover] [--skip-dump] 
    [--backup-path <new-path>] <location-of-orc-file-or-directory>

遵循上述命令中使用的选项的快速指南。

在命令中指定 -d 将导致它转储 ORC 文件数据而不是元数据(Hive 1.1.0 及更高版本)。
使用逗号分隔的列 ID 列表指定 --rowindex 将使它打印指定列的行索引，其中 0 是包含所有列的顶级结构，1 是第一个列 ID(Hive 1.1.0 及更高版本)。
在命令中指定 -t 将打印时区 ID作家。
在命令中指定 -j 将以 JSON 格式打印 ORC 文件元数据格式。要漂亮地打印 JSON 元数据，请将 -p 添加到命令中。
在命令中指定 --recover 将恢复损坏的 ORC 文件由 Hive 流生成。
指定 --skip-dump 和 --recover 将执行恢复不转储元数据。
使用新路径指定 --backup-path 将使恢复工具将损坏的文件移动到指定的备份路径(默认:/tmp)。
是 ORC 文件的 URI。
是 ORC 文件的 URI 或者目录。从 Hive 1.3.0 开始，这个 URI 可以是一个目录包含 ORC 文件。

希望对您有所帮助!

关于hadoop - 有人可以向我解释 orcfiledump 的输出吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48860476/

27

4

0

文章推荐： hadoop - 大型 MapReduce 作业不断死亡

文章推荐： c++ - 如何在 clang 库中执行模板替换？

文章推荐： c++ - std::reference_wrapper 在容器中的使用

文章推荐： c++ - "Looking At"具有四元数的对象

mysql - 从 bash 输出 sql 输出
我正在使用 OUTFILE 命令，但由于权限问题和安全风险，我想将 shell 的输出转储到文件中，但出现了一些错误。我试过的 #This is a simple shell to connect t
JAVA——程序功能为输入输出、输入输出；想让程序的功能分别为输入输入、输出、输出
我刚刚开始学习 Java，我想克服在尝试为这个“问题”创建 Java 程序时出现的障碍。这是我必须创建一个程序来解决的问题: Tandy 喜欢分发糖果，但只有 n 颗糖果。对于她给第 i 个糖果的人，
c++ - 无法使用 ostream 输出 C++ 输出 vector
你好，我想知道我是否可以得到一些帮助来解决我在 C++ 中打印出 vector 内容的问题我试图以特定顺序在一个或两个函数调用中输出一个类的所有变量。但是我在遍历 vector 时收到一个奇怪的错误
gradle - 重复生成的类 gradle 输出 (build/...) 与 intellij 输出 (out/...)
我正在将 intellij (2019.1.1) 用于 java gradle (5.4.1) 项目，并使用 lombok (1.18.6) 来自动生成代码。 Intellij 将生成的源放在 out
javascript - 如何从 JavaScript 输出 JSON 输出，以便将其识别为 JSON？
编辑:在与 guest271314 交流后，我意识到问题的措辞(在我的问题正文中)可能具有误导性。我保留了旧版本并更好地改写了新版本背景: 从远程服务器获取 JSON 时，响应 header 包含一
java - StoredProcedureCall 1x Varchar 输出 1x Cursor 输出
我的问题可能有点令人困惑。我遇到的问题是我正在使用来自 Java 的 StoredProcedureCall 调用过程，例如: StoredProcedureCall call = new Store
com - COM IDL定义中[输入，输出]和[输出，检索]之间的差异
在我使用的一些IDL中，我注意到在方法中标记返回值有2个约定-[in, out]和[out, retval]。当存在多个返回值时，似乎使用了[in, out]，例如: HRESULT MyMetho
linux - 我如何告诉 `gar` 或 `ar` 输出 `elf32-i386` 输出？
当我查看 gar -h 的帮助输出时，它告诉我: [...] gar: supported targets: elf64-x86-64 elf32-i386 a.out-i386-linux [...
r - Knitr HTML Loop - 一些 HTML 输出，一些 R 输出
我想循环遍历一个列表，并以 HTML 格式打印其中的一部分，以代码格式打印其中的一部分。所以更准确地说:我想产生与这相同的输出 1 is a great number 2 is a great
"Error running git [init /workspace/output/]: exit status 1\n/workspace/output/.git: Permission denied\n"(“运行git[init/工作区/输出/]时出错：退出状态1\n/工作区/输出/.git：权限被拒绝\n”)
我有下面的tekton管道，并尝试在Google Cloud上运行。集群角色绑定。集群角色。该服务帐户具有以下权限。。例外。不确定需要为服务帐户设置什么权限。
Grepping 输出
当尝试从 make 过滤非常长的输出以获取特定警告或错误消息时，第一个想法是这样的: $ make | grep -i 'warning: someone set up us the bomb' 然而
Kotlin中抽象容器工具的泛型输入/输出？
我正在创建一个抽象工具类，该类对另一组外部类(不受我控制)进行操作。外部类在某些接口(interface)点概念上相似，但访问它们相似属性的语法不同。它们还具有不同的语法来应用工具操作的结果。我创建了
Python奇怪的按位与(&)输出
这个问题已经有答案了: What do numbers starting with 0 mean in python? (9 个回答) 已关闭 7 年前。在我的代码中使用按位与运算符 (&) 时，我
Python文件输入/输出
我写了这段代码来解析输入文件中的行输入格式:电影 ID 可以有多个条目，所以我们应该计算平均值输出:**没有重复(这是问题所在) import re f = open("ratings2.txt",
更高效的Python输入/输出
我需要处理超过 1000 万个光谱数据集。数据结构如下:大约有 1000 个 .fits(.fits 是某种数据存储格式)文件，每个文件包含大约 600-1000 个光谱，其中每个光谱中有大约 450
C编程频率计数器输入/输出
我编写了一个简单的 C 程序，它读取一个文件并生成一个包含每个单词及其出现频率的表格。该程序有效，我已经能够在 Linux 上运行的终端中获得显示的输出，但是，我不确定如何获得生成的显示以生成包含词
C语言音频输入/输出
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
python中的print()输出
1.普通的输出： print(str)#str是任意一个字符串，数字··· 2.格式化输出： ?
logstash 简单文件输入/输出
我无法让 logstash 正常工作。 Basic logstash Example作品。但后来我与 Advanced Pipeline Example 作斗争.也许这也可能是 Elasticsear
audio - 快速音频输入/输出
这是我想要做的: 我想让用户给我的程序一些声音数据(通过麦克风输入)，然后保持 250 毫秒，然后通过扬声器输出。我已经使用 Java Sound API 做到了这一点。问题是它有点慢。从发出声音到

首页

博学

6Ren·AI

商城

hadoop - 有人可以向我解释 orcfiledump 的输出吗？