gpt4 book ai didi

apache-spark - Apache Spark 中的 Printschema()

转载 作者:行者123 更新时间:2023-12-02 06:48:54 28 4
gpt4 key购买 nike

这个问题在这里已经有了答案:





Datasets in Apache Spark

(2 个回答)


3年前关闭。



Dataset<Tweet> ds = sc.read().json("/path").as(Encoders.bean(Tweet.class));



Tweet class :-
long id
string user;
string text;


ds.printSchema();

输出:-
root
|-- id: string (nullable = true)
|-- text: string (nullable = true)
|-- user: string (nullable = true)

json 文件具有字符串类型的所有参数

我的问题是正在接受输入并将其编码为 Tweet.class . 模式中为 id 指定的数据类型是 Long 但当模式被打印时它被强制转换为 String .

它是否为打印方案提供了读取文件的方式或根据我们所做的编码(此处为 Tweet.class)?

最佳答案

我不知道您的代码不起作用的确切原因,但是如果您想更改归档类型,您可以编写您的 customSchema。

val schema =  StructType(List
(
StructField("id", LongType, nullable = true),
StructField("text", StringType, nullable = true),
StructField("user", StringType, nullable = true)
)))

您可以将架构应用于您的数据框,如下所示:
Dataset<Tweet> ds = sc.read().schema(schema).json("/path")

ds.printSchema()

关于apache-spark - Apache Spark 中的 Printschema(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50097628/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com