hadoop - Druid 批量索引 inputSpec 类型粒度，错误为 "no input paths specified in job"-6ren

hadoop - Druid 批量索引 inputSpec 类型粒度，错误为 "no input paths specified in job"

转载作者：可可西里更新时间：2023-11-01 15:56:32

25

4

我正在按照此处编写的说明进行操作:http://druid.io/docs/0.9.2/ingestion/batch-ingestion.html (滚动到“InputSpec specification”，寻找“granularity”)。

我的索引任务 JSON 中有:

"inputSpec": {
  "type": "granularity",
  "dataGranularity": "DAY",
  "inputPath": "hdfs://hadoop:9000/druid/events/interview",
  "filePattern": ".*",
  "pathFormat": "'y'=yyyy/'m'=MM/'d'=dd"
}

我已经像这样在 HDFS 中组织了我的文件(我是故意这样做的，认为我会在我的索引任务中使用“粒度”类型):

我不断收到此错误(索引失败):

Caused by: java.io.IOException: No input paths specified in job
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:231) ~[?:?]
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:340) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:493) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:510) ~[?:?]
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:394) ~[?:?]
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1285) ~[?:?]

用谷歌搜索，有两个页面在谈论同一个问题:

两者都提到将“filePattern”的值设置为“.*”。做到了，没有运气。

为了确认我的 Druid-Hadoop 链接有效，我尝试将我的 inputSpec 更改为静态:

"inputSpec": {
  "type": "static",
  "paths": "hdfs://hadoop:9000/druid/events/interview/y=2016/m=11/d=06/event.json,hdfs://hadoop:9000/druid/events/interview/y=2016/m=11/d=07/event.json"
}

它有效。所以，我的 Druid 和 Hadoop 没问题。

Druid(我使用的是 0.9.2)中的这个“粒度”inputSpec 是否被破坏了？因为我在我的 inputSpec(粒度类型一)中没有发现任何错误；至少不是根据我阅读的文档和论坛。

与此同时，我可以使用静态类型(并构建我的冗长路径字符串)，但“粒度”类型将是理想的(如果它有效的话)。

任何人都可以在这里阐明一些问题吗？

谢谢。

最佳答案

尝试在路径模式的末尾添加一个/:"pathFormat": "'y'=yyyy/'m'=MM/'d'=dd/"

关于hadoop - Druid 批量索引 inputSpec 类型粒度，错误为 "no input paths specified in job"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43005330/

25

4

0

文章推荐： hadoop - 分区列正在添加到配置单元中的表模式

文章推荐： mongodb - 使用 Pig 将 HDFS 数据存储到 MongoDB

文章推荐： java - 如何制作两个文件的学习列表

shell - echo PATH $PATH\$PATH 有什么作用？
这是我的作业 What does echo PATH $PATH \$PATH do? 我不知道它是如何工作的。 echo PATH打印“路径” $PATH创建一个“PATH”变量......也许？
python - path = path + [node1], path += [node1] 和 path.append(node1) 的区别
我想弄清楚两者之间的区别路径=路径+[节点1] 路径+=[节点1] path.append(node1) 我得到的是 path = path + [node1] 的正确路径，但不是其他两个。 def
python - 序列化错误 "c:\path\path"[Errno 13] 权限被拒绝 : C:\\path\\path
我使用 Robot 框架在 Ride 中创建了一个测试用例。运行时出现错误。我更新了python的路径。我更新了库和 Ride。我换了文件夹还是不行 *** Settings *** Documen
path - 自定义路径lib.Path()
我尝试使用额外的功能自定义 pathlib.Path()。特别是，我真的很喜欢使用上下文管理器作为移入和移出目录的方法。我一直在使用它，但我似乎在让 Path() 与自定义上下文管理器一起工作时遇到错
python - 为什么使用 sys.path.append(path) 而不是 sys.path.insert(1, path)？
编辑:基于 Ulf Rompe 的评论，重要的是使用“1”而不是“0”，否则您将破坏 sys.path . 我已经做 python 很长一段时间了(一年多)，我总是很困惑为什么人们建议你使用 sys.
path - 我可以使用 `std::path::Path` 的 `strip_prefix` 来替换动态前缀吗？
我有兴趣这样做的原因是因为我的路径中有一部分将保持不变，但我希望将其与其所有父部分一起删除。所以如果我们说， some/unknown/path/foo/bar/baz 我想回去 bar/baz 但
python - os.path.abspath(os.path.join(os.path.dirname(__file__), os.path.pardir)) 是什么意思？ Python
在几个 SO 的问题中，有这些行可以访问代码的父目录，例如os.path.join(os.path.dirname(__file__)) returns nothing和 os.path.join(o
python - 导出 PATH 命令 - 'export PATH=~/anaconda3/bin:$PATH'
我已经在我的 Linux 中安装了 anaconda 来导入 python 包。安装 anaconda 后，我无法在 python 中使用 anaconda，经过一番搜索后我发现输入此命令我能够使用
c# - new FileInfo(path).Name 与 Path.GetFileName(path)
哪个更好用，为什么？我的意思是这两个命令在哪些方面不同以及如何不同？性能、可读性…… new FileInfo(path).Name 或 Path.GetFileName(path) 最佳答案因为您
android - java.lang.SecurityException : Unsupported path path/path/JPEG_5e3bbe8ed6c75_24741_. jpg
这不适用于某些设备。在三星设备中，他们不允许使用下载管理器下载文件。我已经在 list 中定义了权限并获得了运行时权限。 DownloadManager downloadManager = (Do
java - 加入 nio.path 与 Paths.get() 或 Path.resolve()
我想知道在这个例子中使用 Paths.get() 和 Path.resolve 有什么区别: public static void main(String[] args) { Path p1
path - SVG 可以同时包含绝对命令和相对命令吗？
目前我正在开发一个转换由 Inkscape 创建的 svg-paths 的应用程序。现在我不清楚关于绝对和相对路径组合的路径规范。规范是否说明了同时包含相对和绝对坐标的路径定义？特别是关于绝对贝塞尔
path - 在 $PATH 上查找命令
我正在编写脚本，我需要在用户的 $PATH 上查找命令并获取该命令的完整路径。问题是我不知道用户的登录 shell 是什么，或者他们的 do 文件中可能有什么奇怪的东西。我将 bourne shell
path - Metalsmith:如何使用 path()？
Metalsmith 的文档对 path() 函数没有太多解释:#path(paths...): Resolve any amount of paths... relative to the work
path - Wine PATH 通过命令行而不是持久的
我知道我可以通过 regedit 更改我的 wine PATH，但实际上我只需要为一次运行更改 PATH。例如，我的软件名为frontend.exe，这取决于example/mylib.dll，我需
path - 什么是 "canonical path"？
因此，绝对路径是一种到达某个文件或位置的方法，描述了它的完整路径、完整路径，并且它依赖于操作系统(Windows 和 Linux 的绝对路径，例如，不同)。另一方面，相对路径是从当前位置 ..(两个点
path - 为什么使用 $PATH 以及它是什么
我对编程有点陌生(不是真的，但我仍在学习 - 我们不是吗？)。虽然我了解 Java 和 Python，并且了解 C、C++、JS、C#、HTML、CSS 等(并且我可以在终端中很好地导航)，但我不熟悉
path - 为什么使用 $PATH 以及它是什么
我对编程有点陌生(不是真的，但我仍在学习 - 我们不是吗？)。虽然我了解 Java 和 Python，并且了解 C、C++、JS、C#、HTML、CSS 等(并且我可以在终端中很好地导航)，但我不熟悉
path - 应用程序特定的 PATH 变量
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
Bash - $PATH 和 ${PATH}
使用环境变量(如 PATH)作为 $PATH 或 ${PATH} 有什么区别？最佳答案在大多数情况下没有区别。唯一重要的是你是否想在扩展后包含尾随文本。例如，假设您的 PATH 包含字符串 FOO

首页

博学

6Ren·AI

商城

hadoop - Druid 批量索引 inputSpec 类型粒度，错误为 "no input paths specified in job"