gpt4 book ai didi

apache-spark - 如何在 Apache Spark 上进行非随机数据集拆分?

转载 作者:行者123 更新时间:2023-12-04 14:40:49 24 4
gpt4 key购买 nike

我知道我可以使用 randomSplit 方法进行随机拆分:

val splittedData: Array[Dataset[Row]] = 
preparedData.randomSplit(Array(0.5, 0.3, 0.2))

我可以使用一些“nonRandomSplit 方法”将数据拆分成连续的部分吗?

Apache Spark 2.0.1。
提前致谢。

UPD:数据顺序很重要,我将在具有“较小 ID”的数据上训练我的模型,并在具有“较大 ID”的数据上对其进行测试。所以我想将数据拆分成连续的部分而不进行混洗。

例如
my dataset = (0,1,2,3,4,5,6,7,8,9)
desired splitting = (0.8, 0.2)
splitting = (0,1,2,3,4,5,6,7), (8,9)

我能想到的唯一解决方案是使用 计数 限制 ,但可能有更好的。

最佳答案

这是我实现的解决方案:Dataset -> Rdd -> Dataset。

我不确定这是否是最有效的方法,所以我很乐意接受更好的解决方案。

val count = allData.count()
val trainRatio = 0.6
val trainSize = math.round(count * trainRatio).toInt
val dataSchema = allData.schema

// Zipping with indices and skipping rows with indices > trainSize.
// Could have possibly used .limit(n) here
val trainingRdd =
allData
.rdd
.zipWithIndex()
.filter { case (_, index) => index < trainSize }
.map { case (row, _) => row }

// Can't use .limit() :(
val testRdd =
allData
.rdd
.zipWithIndex()
.filter { case (_, index) => index >= trainSize }
.map { case (row, _) => row }

val training = MySession.createDataFrame(trainingRdd, dataSchema)
val test = MySession.createDataFrame(testRdd, dataSchema)

关于apache-spark - 如何在 Apache Spark 上进行非随机数据集拆分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40934947/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com