gpt4 book ai didi

ruby - Ruby 中的数据拆分

转载 作者:太空宇宙 更新时间:2023-11-03 16:31:07 24 4
gpt4 key购买 nike

我正在寻找一个 gem,它将 CSV 数据集拆分成更小的数据集,以便在机器学习系统上进行训练和测试。 R 中有一个包可以根据随机抽样来执行此操作;但是我的研究在 Ruby 中没有发现任何东西。我想在 Ruby 中这样做的原因是原始数据集非常大,例如1700 万行或 5.5 演出。 R 期望将整个数据集加载到内存中。 Ruby 要灵活得多。如有任何建议,我们将不胜感激。

最佳答案

这会将您的原始数据分成两个文件,而无需将其全部加载到内存中:

require 'csv'

sample_perc = 0.75

CSV.open('sample.csv','w') do |sample_out|
CSV.open('test.csv','w') do |test_out|
CSV.foreach('alldata.csv') do |row|
(Random.rand < sample_perc ? sample_out : test_out) << row
end
end
end

关于ruby - Ruby 中的数据拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15717931/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com