gpt4 book ai didi

hadoop - 如何在Apache PIG中的同一文件中添加数据?

转载 作者:行者123 更新时间:2023-12-02 20:09:45 25 4
gpt4 key购买 nike

我是PIG的新手。

实际上,我有一个用例,在这种情况下,必须在每个常规间隔之后一次又一次地将数据存储在同一文件中。但是当我浏览一些教程和链接时,没有看到与此相关的任何内容。

如何将数据存储在同一文件中?

最佳答案

不可能。 Pig使用Hadoop,目前没有附加文件的“推荐”解决方案。

另一点是,仅当使用了一个映射器或使用了一个reducer且整个数据流结束时,pig才会生成一个文件。

您可以:

  • 提供有关您要解决的问题的更多信息
  • 错误的解决方案:

  • 2.1。在您的 pig 脚本中处理数据

    2.2。从现有文件中加载数据

    2.3。联合关系,其中第一个关系保留新数据,第二个关系保留现有文件中的数据

    2.4。将联合结果存储到新输出

    2.5。用新文件替换旧文件。

    好的解决方案:

    创建文件夹/ mydata

    在文件夹中创建分区,如果您每小时都要处理数据,则它们可以是/ yyyy / MM / dd / HH

    使用glob读取数据:
    /mydata/*/*/*/*/*

    小时分区中的所有文件都可以通过PIG / HIVE / MR或任何hadoop工具读取。

    关于hadoop - 如何在Apache PIG中的同一文件中添加数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17607325/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com