gpt4 book ai didi

r - 分块处理数据

转载 作者:行者123 更新时间:2023-12-02 14:37:14 27 4
gpt4 key购买 nike

我有一个包含大约 800 万个观测值和 5 个字符变量的数据集“X” - 称它们为 A、B、C、D 和 E。我正在尝试使用 RecordLinkage 包计算 D 和 E 之间的 jaro-winkler 统计数据:

library(RecordLinkage)
X$jw = jarowinkler(X$D, X$E)

问题是,越来越多的内存不断被耗尽,直到计算机完全死机。有没有什么方法可以自动以“ block ”的形式进行处理,而无需实际手动将 X 预先分割成相当小的尺寸并处理各个子集?

换句话说,是否有任何内置函数可以进行分割和处理,而无需我预先进行?

最佳答案

好吧,最简单的解决方案可能是使用 read.table (或 CSV 或其他)的 nrows 参数。将 nrows 设置为一个较小的值,然后循环遍历各个段,删除不需要的对象并随时调用 gc()

关于r - 分块处理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7459989/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com