gpt4 book ai didi

hadoop - Pig 中带有 AvroStorage 的逗号分隔列表

转载 作者:可可西里 更新时间:2023-11-01 16:20:24 24 4
gpt4 key购买 nike

我尝试使用逗号分隔列表在 Pig 中使用 AvroStorage 加载多个文件。我使用的语句是:

test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING org.apache.pig.piggybank.storage.avro.AvroStorage();

Pig 声明作业中没有指定输入路径。请参阅下面的堆栈跟踪。我试过 pig 版本 0.8.1-cdh3u2 和 0.9.1。

有没有人观察到同样的行为?是错误还是功能?

堆栈跟踪:

rg.apache.pig.backend.executionengine.ExecException: ERROR 2118: No input paths specified in job
at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:282)
at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:885)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:779)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
at org.apache.hadoop.mapred.jobcontrol.Job.submit(Job.java:378)
at org.apache.hadoop.mapred.jobcontrol.JobControl.startReadyJobs(JobControl.java:247)
at org.apache.hadoop.mapred.jobcontrol.JobControl.run(JobControl.java:279)
at java.lang.Thread.run(Thread.java:679)
Caused by: java.io.IOException: No input paths specified in job
at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:186)
at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:241)
at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:270)
... 7 more

最佳答案

这些部分文件由 Pig 自动加载,因此您只需要指定目录即可。

尝试

test_file1 = LOAD 'repo_1' using AvroStorage();
test_file2 = LOAD 'repo_2' using AvroStorage();
test_file = UNION test_file1, test_file2;

关于hadoop - Pig 中带有 AvroStorage 的逗号分隔列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8984519/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com