gpt4 book ai didi

hadoop - 为什么Elephantbird Pig JsonLoader仅处理文件的一部分?

转载 作者:行者123 更新时间:2023-12-02 21:58:15 24 4
gpt4 key购买 nike

我在亚马逊的Elastic Map-Reduce上使用Pig进行批处理分析。我的输入文件在S3上,并且包含由每行一个JSON词典表示的事件。我使用Elephantbird JsonLoader库来解析输入文件。到现在为止还挺好。

我在交互式Pig session 中处理存储在本地文件系统或hdfs上的大文件时遇到问题。看起来如果输入文件足够大以进行拆分,大象鸟将只处理其中一个拆分,并且在拆分结束时处理将停止且没有错误消息。如果我从S3流式传输输入(S3输入上没有文件拆分),或者将文件转换为Pig可以直接读取的格式,则不会有相同的问题。

举一个具体的例子:一个拥有833,138行的文件最多只能处理379,751行(如果我看过Pig中的完成百分比,它会顺利上升到50%,然后跳到100%)。我还尝试了一个包含40万行的文件,并对其进行了很好的处理。

所以我的问题是:为什么象鸟只处理一个拆分?我是不是误解了Pig在交互模式下应该如何工作,还是发生了严重错误?

最佳答案

Katia,如果您给Pig用户列表发送电子邮件,您会更快地获得帮助:)。

请尝试Pig 0.8.1(当前版本),如果您仍然遇到错误,请告诉我们。值得一试的是,我已经在数百个文件上使用EB Json加载器一年多了,并且它们可以正常运行,所以也许您的数据有些问题。

Spike Gronim-已经修复,本地模式现在与非本地模式几乎完全相同(除了分布式缓存和倾斜联接之类的东西)。升级。

关于hadoop - 为什么Elephantbird Pig JsonLoader仅处理文件的一部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5824617/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com