gpt4 book ai didi

java - 如何使用 Java 获取 Parquet 文件大小和行数?

转载 作者:太空宇宙 更新时间:2023-11-04 11:29:40 24 4
gpt4 key购买 nike

我已经使用 Spark 创建了 parquet 文件。

我需要 Parquet 元数据,例如文件大小和其中的行数。有没有解决方案可以使用 Spark 库或 Java 获取此信息?

最佳答案

您可以在scala中使用Java File API来获取大小

val file = new File("some.parquet")
val fileSize = file.length

这将返回您可以根据需要转换的大小(以字节为单位)。

如果您想要对记录进行计数,则需要加载以触发并获取计数。如果你想获取行数,那么

val lineCount = io.Source.fromFile("some.parquet").getLines.size 

关于java - 如何使用 Java 获取 Parquet 文件大小和行数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43931156/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com