gpt4 book ai didi

python - 如何在 Python 中将 JSON 文件目录加载到 Apache Spark

转载 作者:太空狗 更新时间:2023-10-29 20:56:05 25 4
gpt4 key购买 nike

我是 Apache Spark 的新手,我想在 Python 中从保存在多个 JSON 文件中的字典列表创建一个 RDD(每个文件都经过 gzip 压缩并包含一个字典列表)。粗略地说,生成的 RDD 将包含所有字典列表,这些字典列表组合成一个字典列表。我无法在文档 ( https://spark.apache.org/docs/1.2.0/api/python/pyspark.html ) 中找到它,但如果我错过了它,请告诉我。

到目前为止,我尝试读取 JSON 文件并在 Python 中创建组合列表,然后使用 sc.parallelize(),但是整个数据集太大而无法放入内存,因此这不是一个实用的解决方案。似乎 Spark 有一种聪明的方法来处理这个用例,但我不知道。

如何在 Python 中创建包含所有 JSON 文件中的列表的单个 RDD?

我还应该提到我不想使用 Spark SQL。如果可能的话,我想使用 map、filter 等函数。

最佳答案

按照 tgpfeiffer 在他们的回答和评论中提到的内容,这就是我所做的。

首先,正如他们提到的那样,必须对 JSON 文件进行格式化,以便每行有一个字典,而不是一个字典列表。然后,就这么简单:

my_RDD_strings = sc.textFile(path_to_dir_with_JSON_files)
my_RDD_dictionaries = my_RDD_strings.map(json.loads)

如果有更好或更有效的方法,请告诉我,但这似乎可行。

关于python - 如何在 Python 中将 JSON 文件目录加载到 Apache Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28203217/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com