gpt4 book ai didi

sql - 如何找到 Apache spark sql 数据框中每一行的大小,并丢弃大小超过千字节阈值大小的行

转载 作者:行者123 更新时间:2023-12-02 17:32:57 30 4
gpt4 key购买 nike

我是 scala 中的 apache spark sql 的新手。

如何找到 Apache spark sql 数据帧中每一行的大小,并丢弃大小超过千字节阈值大小的行。我正在寻找 Scala 解决方案。

最佳答案

这实际上是一个棘手的问题。 Spark SQL 使用列式数据存储,因此考虑单个行的大小并不是很自然。我们当然可以从那里调用 .rdd,您可以使用来自 Calculate size of Object in Java 的技术过滤生成的 RDD。确定对象大小,然后您可以获取行的 RDD 并使用 SQLContext 将其转换回 DataFrame。

关于sql - 如何找到 Apache spark sql 数据框中每一行的大小,并丢弃大小超过千字节阈值大小的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30592660/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com