hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob？-6ren

hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob？

转载作者：可可西里更新时间：2023-11-01 14:14:08

24

4

因为我noted previously , Pig 不能很好地处理空(0 字节)文件。不幸的是，有很多方法可以创建这些文件(甚至是 within Hadoop utilitities )。

我认为我可以通过在 LOAD statement 中显式加载与给定命名约定匹配的文件来解决这个问题。使用 Hadoop's glob syntax .不幸的是，这似乎不起作用，因为即使我使用 glob 过滤已知良好的输入文件，我仍然遇到 0 字节故障 mentioned earlier .

这是一个例子:假设我在 S3 中有以下文件:

mybucket/a/b/(0 字节)
mybucket/a/b/myfile.log(>0 字节)
mybucket/a/b/yourfile.log(>0 字节)

如果我在我的 pig 脚本中使用这样的 LOAD 语句:

myData = load 's3://mybucket/a/b/*.log as ( ... )

我希望 Pig 不会在 0 字节文件上窒息，但它仍然如此。是否有技巧让 Pig 实际上只查看与预期的 glob 模式匹配的文件？

最佳答案

这是一个相当丑陋的解决方案，但不依赖于 * 通配符语法的 glob 似乎可以工作。因此，在我们的工作流程中(在调用我们的 pig 脚本之前)，我们列出了我们感兴趣的前缀下方的所有文件，然后创建一个仅包含我们感兴趣的路径的特定 glob。

例如，在上面的例子中，我们列出“mybucket/a”:

hadoop fs -lsr s3://mybucket/a

返回文件列表以及其他元数据。然后我们可以从该数据创建 glob:

myData = load 's3://mybucket/a/b{/myfile.log,/yourfile.log}' as ( ... )

这需要更多的前端工作，但允许我们专门针对我们感兴趣的文件并避免 0 字节文件。

更新:不幸的是，我发现当 glob 模式变长时这个解决方案会失败； Pig 最终抛出异常“无法创建输入切片”。

关于hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5750724/

24

4

0

文章推荐： windows - 在 Windows 中获取鼠标光标下的单词

文章推荐： c++ - 在对话框上禁用 aero 淡入效果

文章推荐： c++ - 在笔记本电脑上读取当前电池充电/放电率

文章推荐： .net - 默认 IMarshal 实现？

python - 使用一个 glob.glob 而不是多个 glob.glob
这个问题已经有答案了: 奥 git _a (40 个回答) 已关闭 4 年前。我有一个包含不同类型文件的文件夹。我只需要处理图像文件(jpg、png、jpeg、JPG...)。为此，我使用 glob
python - glob.glob() 的返回值是如何排序的？
我编写了以下 Python 代码: #!/usr/bin/python # -*- coding: utf-8 -*- import os, glob path = '/home/my/path' f
Python glob.glob 总是返回空列表
我正在尝试使用 glob 和 os 在目录中找到最新的 .zip 文件。有趣的是，我进行了以下设置并且以前可以正常工作: max(glob.glob('../directory/*.zip'), ke
glob - gulp globbing-如何查看目录下的所有内容
这是一个非常愚蠢的问题，但我还没有真正找到令人满意的答案:How do I use gulp globbing to select all files in all某个目录下的子目录？我已经尝试过:
python - glob.glob 的意外输出
我正在尝试为 CLI 脚本之一提供通配符支持，并且我正在使用 pythons glob 模块。为了进行测试，我尝试了以下方法: >>> import glob >>> for f in glob.gl
python - 如何实现 glob.glob
目前我的os.walk代码列表是指定目录下所有目录下的所有文件。 top = /home/bludiescript/tv-shows for dirpath, dirnames, fi
python3 glob.glob 正则表达式只得到第一个匹配项
有一点奇怪的问题，因为这段代码似乎在我 friend 的 mac 上运行良好，但在我的 ubuntu 16.04 上根本不起作用。通过我的 python，我正在运行以下命令 filenames =
python - glob.glob 中的正则表达式用法？
import glob list = glob.glob(r'*abc*.txt') + glob.glob(r'*123*.txt') + glob.glob(r'*a1b*.txt') for i
python - glob.glob() 的返回值是如何排序的？
我编写了以下 Python 代码: #!/usr/bin/python # -*- coding: utf-8 -*- import os, glob path = '/home/my/path' f
python - glob.glob ("**/*.jpg") 作为迭代器还是延迟加载？
我想知道是否可以使用 glob.glob("**/*.jpg") 来获取多个文件夹中的所有图像，但作为迭代器以避免填充内存目前，我将以下代码与 glob 一起使用: for file in glob
python - 使用 glob.glob 时从重复轴错误重新索引
当我尝试运行此代码时: import pandas as pd import glob files = [pd.read_excel(p, skipfooter=1) for p in glob.gl
python - 使用 glob.glob 在目录中的每个文件中搜索并打印一行
我的桌面上有一个文件夹，其中包含 200 多个 txt 文件。我想在每个文件中打印行号 1050.539。这是我所拥有的: import glob f=glob.glob('/Users/me/Des
python - 如何使 glob.glob() 深度优先？
我注意到 glob.glob('**/*', recursive=True) 以呼吸优先搜索的方式遍历目录。有没有办法让它成为深度优先？最佳答案要遍历目录树，请切换到 os.walk它可以让你控制
python - 为什么我的 glob.glob 循环没有遍历文件夹中的所有文本文件？
我正在尝试使用 python 3 从包含文本文档的文件夹中读取数据。具体来说，这是对 LingSpam 垃圾邮件数据集的修改。我希望我编写的代码返回所有 1893 个文本文档名称，但是，代码反而返回前
python glob.glob - 如何在不知道子目录中有多深的情况下查找特定文件(或文件列表)？
现在，我使用 subprocess 来调用 find ，它可以很好地完成工作，但我追求的是 pythonic 的做事方式。这是当前代码: cmd = "find /sys/devices/pci*
python - 如何使用 glob.glob 模块搜索子文件夹？
这个问题在这里已经有了答案: How to use glob() to find files recursively? (28 个回答) 关闭去年。我想打开一个文件夹中的一系列子文件夹并找到一些文本
glob - 在 boto3 中过滤一个类似 glob 的正则表达式模式
我可以使用 boto3 的过滤器工具在存储桶中查找类似于使用 glob 目录中的文件的键(技术上是子键)吗？我想得到一个具有这样模式的键列表 "key/**//**.gz" . 最佳答案不幸的是没
glob - 文件路径通配符 (glob) 的 BNF 语法定义
我正在寻找一些用 BFN 规则描述的广泛扩展的方言(比如这个 https://github.com/vmeurisse/wildmatch + globstar **)。任何格式或语言。 OMeta
javascript - glob-fs glob.readdirSync 的意外行为
我有以下nodejs代码。客户端首先调用/api/demosounds，然后调用/api/testsounds。 var glob = require('glob-fs')({ gitignore:
python - glob.glob 读取文件的顺序是什么？如果没有具体顺序，能否指定一个？
我使用以下命令在python中读取目录中所有文件的名称: import glob list_of_files = glob.glob(".../*.txt") 但是列表“list_of_files”的

首页

博学

6Ren·AI

商城

hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob？