gpt4 book ai didi

java - Spark - Java - 在不使用 Spark SQL 数据帧的情况下创建 Parquet/Avro

转载 作者:行者123 更新时间:2023-12-02 10:54:20 25 4
gpt4 key购买 nike

我想获取 Spark 应用程序的输出(我们只使用核心 Spark,从事该项目的人员不想将其更改为 Spark SQL)作为 Parquet 或 Avro 文件。

当我查找这两种文件类型时,我找不到任何没有 DataFrame 或一般 Spark SQL 的示例。我可以在不使用 SparkSQL 的情况下实现此目的吗?

我的数据是表格形式的,它有列,但在处理过程中,将使用所有数据,而不是单个列。它的列是在运行时决定的,因此不存在“名称、ID、地址”之类的通用列。它看起来像这样:

No f1       f2       f3       ...
1, 123.456, 123.457, 123.458, ...
2, 123.789, 123.790, 123.791, ...
...

最佳答案

如果不将 rdd 转换为 dataframe,则无法将其保存在 parquet 中。 Rdd没有schema,但parquet文件是柱状格式,需要schema,所以我们需要将其转换为dataframe。

您可以使用createdataframe api

关于java - Spark - Java - 在不使用 Spark SQL 数据帧的情况下创建 Parquet/Avro,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51892449/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com