gpt4 book ai didi

amazon-ec2 - 如何修复在 pathToPartitionInfo 中找不到目录(从 EMR 上的 HIVE 表中选择/计数)

转载 作者:行者123 更新时间:2023-12-05 06:47:15 25 4
gpt4 key购买 nike

我设置了一个交互式配置单元 session ,并将 apache 网络日志日期直接从 s3 存储桶加载到表中:

    DROP TABLE apachelog;
CREATE EXTERNAL TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE
LOCATION 's3n://OperationOverkill/';

然后我可以像这样成功地从中选择:

SELECT * FROM apachelog LIMIT 5;

但计数(或任何需要实际 map-reduce 的东西不会:

SELECT COUNT(host) FROM apachelog;

错误信息:

Job Submission failed with exception 'java.io.IOException(cannot find dir = s3n: //OperationOverkill/access_clickkiller_12-08-08.log in pathToPartitionInfo: s3n ://OperationOverkill/)'

我用谷歌搜索并找到一个 similar question on AWS Support forum但我希望 SO 能提供更快的指示/帮助。

最佳答案

我遇到了同样的问题,但使用 s3 中的子目录修复了它。所以,我会尝试将您的文件放在类似“s3n://OperationOverkill/subdir/”的地方并使用它。

关于amazon-ec2 - 如何修复在 pathToPartitionInfo 中找不到目录(从 EMR 上的 HIVE 表中选择/计数),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11981916/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com