gpt4 book ai didi

hadoop - 拼花和数据复制

转载 作者:行者123 更新时间:2023-12-02 21:29:15 26 4
gpt4 key购买 nike

Parquet 文件会使OLAP查询更快,因为它采用了列式格式,但另一方面,数据湖是重复的(原始数据+ Parquet 数据)。
即使可以压缩拼花地板,您是否也认为复制所有数据会花费很多钱?

最佳答案

这取决于您的用例。如果出于各种原因需要数据(例如,暂存数据和查询),则可能需要重复。

Parquet是最适合查询的设计,尤其是OLAP查询,该查询经常只涉及某些列。同时,与其他文件相比,写入Parquet文件需要更多的时间。

简而言之,如果两个数据都是OLAP查询的目标,则可能需要考虑仅使用Parquet版本的文件。

请参阅本文档以供引用。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2

关于hadoop - 拼花和数据复制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34874434/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com