hadoop - 如何在Apache PIG中的同一文件中添加数据？-6ren

hadoop - 如何在Apache PIG中的同一文件中添加数据？

转载作者：行者123 更新时间：2023-12-02 20:09:45

我是PIG的新手。

实际上，我有一个用例，在这种情况下，必须在每个常规间隔之后一次又一次地将数据存储在同一文件中。但是当我浏览一些教程和链接时，没有看到与此相关的任何内容。

如何将数据存储在同一文件中？

最佳答案

不可能。 Pig使用Hadoop，目前没有附加文件的“推荐”解决方案。

另一点是，仅当使用了一个映射器或使用了一个reducer且整个数据流结束时，pig才会生成一个文件。

您可以:

提供有关您要解决的问题的更多信息

错误的解决方案:

2.1。在您的 pig 脚本中处理数据

2.2。从现有文件中加载数据

2.3。联合关系，其中第一个关系保留新数据，第二个关系保留现有文件中的数据

2.4。将联合结果存储到新输出

2.5。用新文件替换旧文件。

好的解决方案:

创建文件夹/ mydata

在文件夹中创建分区，如果您每小时都要处理数据，则它们可以是/ yyyy / MM / dd / HH

使用glob读取数据: