gpt4 book ai didi

hadoop - 将多个目录中的多个文件加载到 Pig 中

转载 作者:可可西里 更新时间:2023-11-01 15:28:30 26 4
gpt4 key购买 nike

你好,我有一个目录,其中的子目录类似于 a1,a2,..a8.,每个目录都有多个文件,例如

  bat-a1-0-0
bat-a1-0-1
bat-a1-1-0
bat-a1-1-1
...
bat-a1-31-0
bat-a1-31-1

对于子目录 a2 也是类似的

bat-a2-0-0
bat-a2-0-1
bat-a2-1-0
bat-a2-1-1
...
bat-a2-31-0
bat-a2-31-1

为了不使事情复杂化,我决定做的是使用多个 LOAD 语句来加载每个目录,并找到一种 UNION 方法来获取所有内容。但我不知道如何使用 Apache Pig version 0.10.0-cdh4.2.1 加载每个目录中的文件,因为它们似乎不遵循简单的模式。需要帮助谢谢。

最佳答案

事实上这可能比你想象的要简单。如果你在pig中加载文件,你可以简单地指向一个目录,pig会递归加载所有文件。即使是那些可能嵌套很深的。

所以解决方案是:确保所有数据都在 1 个(或几个)目录下,然后加载它们。

关于hadoop - 将多个目录中的多个文件加载到 Pig 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39406116/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com