gpt4 book ai didi

hadoop - 在 pig LOAD 语句中使用位于远程 http 服务器上的文件?

转载 作者:可可西里 更新时间:2023-11-01 16:14:16 24 4
gpt4 key购买 nike

我正在尝试在 pig 作业中读取一个 txt 文件并将其与位于我们的 hdfs 上的数据结合起来。

所以基本上我想做的是:

current_ids = LOAD 'http://host/dir/file.txt' USING PigStorage(',') AS (id:int);
bindings = LOAD '$hdfs_path' USING AvroStorage();
joined_ids = JOIN current_ids BY id, bindings by user_id;

首先:这可能吗?我想是的。

第二:我该怎么做,或者我可以在哪里寻找更多答案。令人惊讶的是,我一直被困在这个问题上 :)。

如果可能的话,我们宁愿不必将 txt 文件上传到我们的 hdfs。

谢谢!

最佳答案

向一些 hadoop 专家询问了这个问题,他们回答:

“你不能那样做。手动下载并 CopyFromLocal 以放入 HDFS。否则我们很可能会对我们的 Hadoop 集群的一个可怜的小网络服务器进行 DDoS 攻击”

问题解决了!

关于hadoop - 在 pig LOAD 语句中使用位于远程 http 服务器上的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25249356/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com