- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我通过两种方法生成 Parquet 文件:Kinesis Firehose 和 Spark 作业。它们都被写入到 S3 上的同一个分区结构中。可以使用相同的 Athena 表定义查询两组数据。两者都使用 gzip 压缩。
但是,我注意到 Spark 生成的 Parquet 文件大约是 Firehose 生成的文件的 3 倍。有什么理由这样吗?当我使用 Pyarrow 加载它们时,我确实注意到了一些模式和元数据的差异:
>>> import pyarrow.parquet as pq
>>> spark = pq.ParquetFile('<spark object name>.gz.parquet')
>>> spark.metadata
<pyarrow._parquet.FileMetaData object at 0x101f2bf98>
created_by: parquet-mr version 1.8.3 (build aef7230e114214b7cc962a8f3fc5aeed6ce80828)
num_columns: 4
num_rows: 11
num_row_groups: 1
format_version: 1.0
serialized_size: 1558
>>> spark.schema
<pyarrow._parquet.ParquetSchema object at 0x101f2f438>
uri: BYTE_ARRAY UTF8
dfpts.list.element: BYTE_ARRAY UTF8
udids.list.element: BYTE_ARRAY UTF8
uuids.list.element: BYTE_ARRAY UTF8
>>> firehose = pq.ParquetFile('<firehose object name>.parquet')
>>> firehose.metadata
<pyarrow._parquet.FileMetaData object at 0x10fc63458>
created_by: parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)
num_columns: 4
num_rows: 156
num_row_groups: 1
format_version: 1.0
serialized_size: 1017
>>> firehose.schema
<pyarrow._parquet.ParquetSchema object at 0x10fc5e7b8>
udids.bag.array_element: BYTE_ARRAY UTF8
dfpts.bag.array_element: BYTE_ARRAY UTF8
uuids.bag.array_element: BYTE_ARRAY UTF8
uri: BYTE_ARRAY UTF8
import sys
import pyarrow.parquet as pq
table = pq.read_table(sys.argv[1])
pydict = table.to_pydict()
for i in range(0, table.num_rows):
print(f"{pydict['uri'][i]}, {pydict['dfpts'][i]}, {pydict['udids'][i]}, {pydict['uuids'][i]}")
-rw-r--r-- 1 myuser staff 1306337 Jun 28 16:19 firehose.parquet
-rw-r--r-- 1 myuser staff 8328156 Jul 2 15:09 firehose.printed
-rw-r--r-- 1 myuser staff 5009543 Jul 2 15:09 firehose.printed.gz
-rw-r--r-- 1 myuser staff 1233761 Jun 28 16:23 spark.parquet
-rw-r--r-- 1 myuser staff 3213528 Jul 2 15:09 spark.printed
-rw-r--r-- 1 myuser staff 1951058 Jul 2 15:09 spark.printed.gz
SZ:667849/904992/1.36 VC:161475
SZ:735561/1135861/1.54 VC:62643
file: file:/Users/jh01792/Downloads/firehose.parquet
creator: parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)
file schema: hive_schema
--------------------------------------------------------------------------------
udids: OPTIONAL F:1
.bag: REPEATED F:1
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
dfpts: OPTIONAL F:1
.bag: REPEATED F:1
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
uuids: OPTIONAL F:1
.bag: REPEATED F:1
..array_element: OPTIONAL BINARY L:STRING R:1 D:3
uri: OPTIONAL BINARY L:STRING R:0 D:1
row group 1: RC:156 TS:1905578 OFFSET:4
--------------------------------------------------------------------------------
udids:
.bag:
..array_element: BINARY GZIP DO:0 FPO:4 SZ:421990/662241/1.57 VC:60185 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 58, min/max not defined]
dfpts:
.bag:
..array_element: BINARY GZIP DO:0 FPO:421994 SZ:667849/904992/1.36 VC:161475 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 53, min/max not defined]
uuids:
.bag:
..array_element: BINARY GZIP DO:0 FPO:1089843 SZ:210072/308759/1.47 VC:39255 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 32, min/max not defined]
uri: BINARY GZIP DO:0 FPO:1299915 SZ:5397/29586/5.48 VC:156 ENC:BIT_PACKED,RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
file: file:/Users/jh01792/Downloads/spark.parquet
creator: parquet-mr version 1.8.3 (build aef7230e114214b7cc962a8f3fc5aeed6ce80828)
extra: org.apache.spark.sql.parquet.row.metadata = {"type":"struct","fields":[{"name":"uri","type":"string","nullable":false,"metadata":{}},{"name":"dfpts","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}},{"name":"udids","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}},{"name":"uuids","type":{"type":"array","elementType":"string","containsNull":true},"nullable":true,"metadata":{}}]}
file schema: spark_schema
--------------------------------------------------------------------------------
uri: REQUIRED BINARY L:STRING R:0 D:0
dfpts: OPTIONAL F:1
.list: REPEATED F:1
..element: OPTIONAL BINARY L:STRING R:1 D:3
udids: OPTIONAL F:1
.list: REPEATED F:1
..element: OPTIONAL BINARY L:STRING R:1 D:3
uuids: OPTIONAL F:1
.list: REPEATED F:1
..element: OPTIONAL BINARY L:STRING R:1 D:3
row group 1: RC:11 TS:1943008 OFFSET:4
--------------------------------------------------------------------------------
uri: BINARY GZIP DO:0 FPO:4 SZ:847/2530/2.99 VC:11 ENC:PLAIN,BIT_PACKED ST:[num_nulls: 0, min/max not defined]
dfpts:
.list:
..element: BINARY GZIP DO:0 FPO:851 SZ:735561/1135861/1.54 VC:62643 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
udids:
.list:
..element: BINARY GZIP DO:0 FPO:736412 SZ:335289/555989/1.66 VC:23323 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
uuids:
.list:
..element: BINARY GZIP DO:0 FPO:1071701 SZ:160494/248628/1.55 VC:13305 ENC:RLE,PLAIN_DICTIONARY ST:[num_nulls: 0, min/max not defined]
最佳答案
您可能应该以不同的方式构建您的问题:
为什么 Firehose 数据的压缩比 Spark 数据更有效?
在 Parquet 中,您对此有几种可能的解释:
parquet.block.size
配置)。压缩和编码在行组级别应用,因此行组越大,压缩效果越好,但编码可能更差(例如,您可以从字典编码切换到普通的 byte_array 值)并且在读取或写入时需要更高的内存。 $ parquet-tools meta part-00015-6a77dcbe-3edd-4199-bff0-efda0f512d61.c000.snappy.parquet
...
row group 1: RC:63076 TS:41391030 OFFSET:4
--------------------------------------------------------------------------------
options:
.list:
..element: BINARY SNAPPY DO:0 FPO:6042924 SZ:189370/341005/1,80 VC:269833 ENC:RLE,PLAIN_DICTIONARY ST:[no stats for this column]
...
row group 2: RC:28499 TS:14806649 OFFSET:11648146
--------------------------------------------------------------------------------
options:
.list:
..element: BINARY SNAPPY DO:0 FPO:13565454 SZ:78631/169832/2,16 VC:144697 ENC:RLE,PLAIN_DICTIONARY ST:[no stats for this column]
ENC
列数据上的属性为您提供用于列(在本例中为 DICTIONARY)的编码
SZ
属性为您提供
compressed size/uncompressed size/compression ratio
和
VC
编码的值的数量。
dfpts
数据集中的列的平均编码值大小为 904992/161475 = 5.6 字节,而 spark 版本具有 1135861/62643 = 18.13 字节,即使两者都是相同的字典编码。这可能意味着 RLE 在您的 firehose 数据集上效率更高,因为您有很多重复值或更少不同的值。
dfpts
进行排序在保存到 parquet 之前,spark 中的列,您可能会获得与您的消防水管数据相似的编码率。
关于apache-spark - Parquet 文件大小,消防软管与 Spark ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56813435/
这个问题在这里已经有了答案: C sizeof a passed array [duplicate] (7 个回答) 8年前关闭。 在一个函数中,我声明了一个数组: int char_count_ar
简而言之,文件系统如何与 block 设备通信? 最佳答案 我对 block 大小不太了解。我认为 ext4(Linux)的文件系统的 block 大小是 4KB,考虑到现代处理器的页面大小(4KB)
我知道 tinyint(1) 和 tinyint(2) 具有相同的存储空间范围。 唯一的区别是显示宽度不同。这是否意味着 tinyint(1) 将存储所有类型的整数但只正确显示 0 到 9 的范围?而
今晚我已经研究了以下代码几个小时,但我只是摸不着头脑。 当使用函数从标准输入填充数组时,我不断收到“大小 8 的无效写入”和“大小 8 的无效读取”。 如有任何帮助,我们将不胜感激...我知道 Sta
我有一个 valgrind 错误,我不知道如何摆脱它们: ==5685== Invalid read of size 8 ==5685== at 0x4008A1: main (in /home
我对 Hadoop 的概念有点困惑。 Hadoop block 大小、拆分大小和 block 大小 之间有什么区别? 提前致谢。 最佳答案 block 大小和 block 大小相同。 拆分大小 可能与
我想不出一个好的标题,所以希望可以。 我正在做的是创建一个离线 HTML5 webapp。 “出于某些原因”我不希望将某些文件放在缓存 list 中,而是希望将内容放在 localStorage 中。
无法将 xamarin apk 大小减少到 80 MB 以下,已执行以下操作: 启用混淆器 配置:发布 平台:事件(任何 CPU)。 启用 Multi-Dex:true 启用开发人员检测(调试和分析)
我正在开发一个程序,需要将大量 csv 文件(数千个)加载到数组中。 csv 文件的尺寸为 45x100,我想创建一个尺寸为 nx45x100 的 3-d 数组。目前,我使用 pd.read_csv(
Hello World 示例的 React Native APK 大小约为 20M (in recent versions),因为支持不同的硬件架构(ARMv7、ARMv8、X86 等),而同一应用程
我有一个包含 n 个十进制元素的列表,其中每个元素都是两个字节长。 可以说: x = [9000 , 5000 , 2000 , 400] 这个想法是将每个元素拆分为 MSB 和 LSB 并将其存储在
如何设置 GtKTextView 的大小?我想我不能使用 gtk_widget_set_usize。 最佳答案 您不能直接控制小部件的大小,而是由其容器完成。您可以使用 gtk_widget_set_
这个问题在这里已经有了答案: c++ sizeof() of a class with functions (7 个答案) 关闭 5 年前。 结果是 12。 foobar 函数存储在内存中的什么位置
当我在 ffmpeg(或任何其他程序)中使用这样的命令时: ffmpeg -i input.mp4 image%d.jpg 所有图像的组合文件大小总是比视频本身大。我尝试减少每秒帧数、降低压缩设置、模
我是 clojurescript 的新手。 高级编译后出现“77 KB”的javascript文件是否正常? 我有一个 clojurescript 文件: 我正在使用 leinigen: lein c
我想要一个 QPixmap尺寸为 50 x 50。 我试过 : QPixmap watermark(QSize(50,50)); watermark.load(":/icoMenu/preparati
我正在尝试从一篇研究论文中重新创建一个 cnn,但我对深度学习还是个新手。 我得到了一个大小为 32x32x7 的 3d 补丁。我首先想执行一个大小为 3x3 的卷积,具有 32 个特征和步幅为 2。
我一直在尝试调整 View Controller 内的 View 大小,但到目前为止没有运气。基本上,我的 View 最底部有一个按钮,当方向从纵向更改为横向时,该按钮不再可见,因为它现在太靠下了。
如何使用此功能检查图像的尺寸?我只是想在上传之前检查一下... $("#LINK_UPLOAD_PHOTO").submit(function () { var form = $(this);
我用 C++ 完成了这个,因为你可以通过引用传递参数。我无法弄清楚如何在 JavaScript 中执行此操作。我的代码需要更改什么?我的输出是1 this.sizeOfBst = function()
我是一名优秀的程序员,十分优秀!