- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Parquet 文件会使OLAP查询更快,因为它采用了列式格式,但另一方面,数据湖是重复的(原始数据+ Parquet 数据)。
即使可以压缩拼花地板,您是否也认为复制所有数据会花费很多钱?
最佳答案
这取决于您的用例。如果出于各种原因需要数据(例如,暂存数据和查询),则可能需要重复。
Parquet是最适合查询的设计,尤其是OLAP查询,该查询经常只涉及某些列。同时,与其他文件相比,写入Parquet文件需要更多的时间。
简而言之,如果两个数据都是OLAP查询的目标,则可能需要考虑仅使用Parquet版本的文件。
请参阅本文档以供引用。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2
关于hadoop - 拼花和数据复制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34874434/
我在 s3 中有带有以下分区的 Parquet 文件: 年/月/日/some_id 使用 Spark (PySpark),每天我都想最后一次 UPSERT 14 天 - 我想替换 s3 中的现有数据(
我有 7 个 csv 文件,每个 8 GB,需要转换为 parquet。 内存使用量达到 100 GB,我不得不终止它。我也尝试使用 Distributed Dask。内存限制为 12 GB,但长时间
我是一名优秀的程序员,十分优秀!