gpt4 book ai didi

json - 使用 spark 和 Scala 读取文本文件中的 JSON

转载 作者:行者123 更新时间:2023-12-04 01:41:47 25 4
gpt4 key购买 nike

我有一个文本文件,其中包含类似这样的 JSON 数据:

{
"element" : value,
"id" : value,
"total" : []
}
{
"element" : value,
"id" : value,
"total: []
}

所有的 JSON 都是换行分隔的。

我正在尝试将所有文​​本文件数据加载到临时 View 中:

sqlContext.read.textFiles("/path").createOrReplaceTempView("result")

val data = sqlContext.sql("select * from result").collect()

结果:

[{"element" : value,"id" : value,"total" : [] }]
[{"element" : value,"id" : value, "total" : []}]

我需要提取id以及与之相关的total。

spark 有办法处理这个问题吗?

最佳答案

对于 Spark SQL,每一行都必须包含一个单独的、自包含的有效 JSON,否则计算将失败。

不过你可以试试这个

spark.read.json(spark.sparkContext.wholeTextFiles("path to json").values) 

spark.read.option("wholeFile", true).option("mode", "PERMISSIVE").json("path to json")

这应该将 json 转换为数据框。

关于json - 使用 spark 和 Scala 读取文本文件中的 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46446142/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com