gpt4 book ai didi

hadoop - 如何处理(遍历)hadoop/Spark 集群上的大型 JSON 文件?

转载 作者:行者123 更新时间:2023-12-02 22:03:04 25 4
gpt4 key购买 nike

我一直在寻找一段时间,并找到了很多过去的损坏示例和链接,但是我有一个 2 GB 的 json 数据文件,我需要逐行处理,在每个文件上运行大量代码行,并将重新格式化的数据保存到集群中。

我一直在尝试在 Spark 2.0/PySpark 中执行此操作,但运气不佳。我可以在较小的文件上执行此操作,但在我的实际文件上,我的主管用完了堆内存。

当我尝试分解文件时,我得到了此处列出的错误 (Spark __getnewargs__ error),但出于明显不同的原因,因为我没有引用列。

我现在在带有 Hortonworks 的 CentOS6 上,单机集群。实际上,我更多的是寻找“我应该做什么”,而不仅仅是如何去做。我知道 Spark 可以做到这一点,但如果有更好的方法,我也很乐意探索。

最佳答案

您可以使用 JSON serde 在 JSON 文件之上定义 Hive 表,然后可以使用 Hive 或 Spark 进行分析。

关于hadoop - 如何处理(遍历)hadoop/Spark 集群上的大型 JSON 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49134566/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com