gpt4 book ai didi

hadoop - PIGLatin是否支持Parquet文件的谓词下推

转载 作者:行者123 更新时间:2023-12-02 21:33:57 24 4
gpt4 key购买 nike

我正在为我的数据集评估基于Hadoop的存储选项。这是当前的设置,如下所示:

  • 节俭的序列化对象,数据大小为每天1TB(使用GZIP压缩)
  • 数据将主要通过PIG脚本访问,以及一些特别的MR作业
  • 对于任何给定的运行,大多数PIG脚本都会在一个日历日内获取数据,并且只能从Thrift对象
  • 中访问一小列列

    我打算评估以下存储选项
  • 存储效率(所需的减少的存储空间)
  • 使用PIG检索优化

  • 我遇到了RC,ORC和Parquet。通过一些搜索,我可以确认PIG14以后可以使用ORC进行列修剪,分区修剪和谓词下推,但是我找不到任何明确的链接来说明PIG是否可以对Parquet文件执行相同的操作。我遇到了 https://issues.apache.org/jira/browse/PIG-4092,但是在此JIRA的两个链接中,一个抛出404,另一个抛出“空存储库”。

    谁能告诉我PIG是否可以对Parquet执行谓词下推?

    最佳答案

    不,不能。显然认为它会在将来实现,但尚未有任何迹象。

    我建议现在坚持使用ORC,它似乎对Pig有更好的支持。

    关于hadoop - PIGLatin是否支持Parquet文件的谓词下推,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33361195/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com