gpt4 book ai didi

json - 使用 Apache Spark 读取 JSON - `corrupt_record`

转载 作者:行者123 更新时间:2023-12-02 06:11:23 25 4
gpt4 key购买 nike

我有一个 json 文件,nodes 如下所示:

[{"toid":"osgb4000000031043205","point":[508180.748,195333.973],"index":1}
,{"toid":"osgb4000000031043206","point":[508163.122,195316.627],"index":2}
,{"toid":"osgb4000000031043207","point":[508172.075,195325.719],"index":3}
,{"toid":"osgb4000000031043208","point":[508513,196023],"index":4}]

我能够使用 Python 读取和操作该记录。

我正在尝试通过 spark-shellscala 中读取此文件。

从此tutorial ,我可以看到可以通过 sqlContext.read.json

读取 json
val vfile = sqlContext.read.json("path/to/file/nodes.json")

但是,这会导致 corrupt_record 错误:

vfile: org.apache.spark.sql.DataFrame = [_corrupt_record: string]

有人能解释一下这个错误吗?我可以在其他应用程序中读取和使用该文件,并且我确信它没有损坏且完好 json

最佳答案

由于 Spark 期望“JSON 行格式”不是典型的 JSON 格式,因此我们可以通过指定来告诉 Spark 读取典型的 JSON:

val df = spark.read.option("multiline", "true").json("<file>")

关于json - 使用 Apache Spark 读取 JSON - `corrupt_record`,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38895057/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com