hadoop - 拼花和数据复制-6ren

hadoop - 拼花和数据复制

转载作者：行者123 更新时间：2023-12-02 21:29:15

Parquet 文件会使OLAP查询更快，因为它采用了列式格式，但另一方面，数据湖是重复的(原始数据+ Parquet 数据)。
即使可以压缩拼花地板，您是否也认为复制所有数据会花费很多钱？

最佳答案

这取决于您的用例。如果出于各种原因需要数据(例如，暂存数据和查询)，则可能需要重复。

Parquet是最适合查询的设计，尤其是OLAP查询，该查询经常只涉及某些列。同时，与其他文件相比，写入Parquet文件需要更多的时间。

简而言之，如果两个数据都是OLAP查询的目标，则可能需要考虑仅使用Parquet版本的文件。

请参阅本文档以供引用。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2

关于hadoop - 拼花和数据复制，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34874434/

amazon-s3 - UPSERT 拼花 Pyspark
我在 s3 中有带有以下分区的 Parquet 文件: 年/月/日/some_id 使用 Spark (PySpark)，每天我都想最后一次 UPSERT 14 天 - 我想替换 s3 中的现有数据(
dask - 使用 Dask 将大型 csv 拼花 - OOM
我有 7 个 csv 文件，每个 8 GB，需要转换为 parquet。内存使用量达到 100 GB，我不得不终止它。我也尝试使用 Distributed Dask。内存限制为 12 GB，但长时间

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章