- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
因为我noted previously , Pig 不能很好地处理空(0 字节)文件。不幸的是,有很多方法可以创建这些文件(甚至是 within Hadoop utilitities )。
我认为我可以通过在 LOAD statement 中显式加载与给定命名约定匹配的文件来解决这个问题。使用 Hadoop's glob syntax .不幸的是,这似乎不起作用,因为即使我使用 glob 过滤已知良好的输入文件,我仍然遇到 0 字节故障 mentioned earlier .
这是一个例子:假设我在 S3 中有以下文件:
如果我在我的 pig 脚本中使用这样的 LOAD 语句:
myData = load 's3://mybucket/a/b/*.log as ( ... )
我希望 Pig 不会在 0 字节文件上窒息,但它仍然如此。是否有技巧让 Pig 实际上只查看与预期的 glob 模式匹配的文件?
最佳答案
这是一个相当丑陋的解决方案,但不依赖于 *
通配符语法的 glob 似乎可以工作。因此,在我们的工作流程中(在调用我们的 pig 脚本之前),我们列出了我们感兴趣的前缀下方的所有文件,然后创建一个仅包含我们感兴趣的路径的特定 glob。
例如,在上面的例子中,我们列出“mybucket/a”:
hadoop fs -lsr s3://mybucket/a
返回文件列表以及其他元数据。然后我们可以从该数据创建 glob:
myData = load 's3://mybucket/a/b{/myfile.log,/yourfile.log}' as ( ... )
这需要更多的前端工作,但允许我们专门针对我们感兴趣的文件并避免 0 字节文件。
更新:不幸的是,我发现当 glob 模式变长时这个解决方案会失败; Pig 最终抛出异常“无法创建输入切片”。
关于hadoop - Pig 如何在 'load' 语句中使用 Hadoop Glob?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5750724/
这个问题已经有答案了: 奥 git _a (40 个回答) 已关闭 4 年前。 我有一个包含不同类型文件的文件夹。我只需要处理图像文件(jpg、png、jpeg、JPG...)。为此,我使用 glob
我编写了以下 Python 代码: #!/usr/bin/python # -*- coding: utf-8 -*- import os, glob path = '/home/my/path' f
我正在尝试使用 glob 和 os 在目录中找到最新的 .zip 文件。有趣的是,我进行了以下设置并且以前可以正常工作: max(glob.glob('../directory/*.zip'), ke
这是一个非常愚蠢的问题,但我还没有真正找到令人满意的答案:How do I use gulp globbing to select all files in all某个目录下的子目录? 我已经尝试过:
我正在尝试为 CLI 脚本之一提供通配符支持,并且我正在使用 pythons glob 模块。为了进行测试,我尝试了以下方法: >>> import glob >>> for f in glob.gl
目前我的os.walk代码列表是指定目录下所有目录下的所有文件。 top = /home/bludiescript/tv-shows for dirpath, dirnames, fi
有一点奇怪的问题,因为这段代码似乎在我 friend 的 mac 上运行良好,但在我的 ubuntu 16.04 上根本不起作用。 通过我的 python,我正在运行以下命令 filenames =
import glob list = glob.glob(r'*abc*.txt') + glob.glob(r'*123*.txt') + glob.glob(r'*a1b*.txt') for i
我编写了以下 Python 代码: #!/usr/bin/python # -*- coding: utf-8 -*- import os, glob path = '/home/my/path' f
我想知道是否可以使用 glob.glob("**/*.jpg") 来获取多个文件夹中的所有图像,但作为迭代器以避免填充内存 目前,我将以下代码与 glob 一起使用: for file in glob
当我尝试运行此代码时: import pandas as pd import glob files = [pd.read_excel(p, skipfooter=1) for p in glob.gl
我的桌面上有一个文件夹,其中包含 200 多个 txt 文件。我想在每个文件中打印行号 1050.539。这是我所拥有的: import glob f=glob.glob('/Users/me/Des
我注意到 glob.glob('**/*', recursive=True) 以呼吸优先搜索的方式遍历目录。有没有办法让它成为深度优先? 最佳答案 要遍历目录树,请切换到 os.walk它可以让你控制
我正在尝试使用 python 3 从包含文本文档的文件夹中读取数据。具体来说,这是对 LingSpam 垃圾邮件数据集的修改。我希望我编写的代码返回所有 1893 个文本文档名称,但是,代码反而返回前
现在,我使用 subprocess 来调用 find ,它可以很好地完成工作,但我追求的是 pythonic 的做事方式。 这是当前代码: cmd = "find /sys/devices/pci*
这个问题在这里已经有了答案: How to use glob() to find files recursively? (28 个回答) 关闭去年。 我想打开一个文件夹中的一系列子文件夹并找到一些文本
我可以使用 boto3 的过滤器工具在存储桶中查找类似于使用 glob 目录中的文件的键(技术上是子键)吗? 我想得到一个具有这样模式的键列表 "key/**//**.gz" . 最佳答案 不幸的是没
我正在寻找一些用 BFN 规则描述的广泛扩展的方言(比如这个 https://github.com/vmeurisse/wildmatch + globstar **)。 任何格式或语言。 OMeta
我有以下nodejs代码。客户端首先调用/api/demosounds,然后调用/api/testsounds。 var glob = require('glob-fs')({ gitignore:
我使用以下命令在python中读取目录中所有文件的名称: import glob list_of_files = glob.glob(".../*.txt") 但是列表“list_of_files”的
我是一名优秀的程序员,十分优秀!