gpt4 book ai didi

apache-spark - 仅读取 spark 数据集的前 n 列

转载 作者:行者123 更新时间:2023-12-04 17:44:25 25 4
gpt4 key购买 nike

我有一个包含超过 5000 列的数据集,并且在尝试读取数据集时抛出 OutOfMemoryException,即使限制为 10 行也是如此。 cause of exception 上还有一个帖子所以我只想阅读前 n 列以避免错误。我找不到执行此操作的 api 调用,并且只能使用 headlimit 限制行。有没有办法只限制前几列?谢谢。

最佳答案

鉴于您的数据集是 ds,您可以将前 n 列提取到数组中:

val n = 2
val firstNCols = ds.columns.take(n)

然后仅从数据集中选择这些列:

ds.select(firstNCols.head, firstNCols.tail:_*)

关于apache-spark - 仅读取 spark 数据集的前 n 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52767606/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com