R:如何将 300 个 1GB .rds 文件合并为 1 个大 rds 文件而不将它们读入内存？-6ren

R:如何将 300 个 1GB .rds 文件合并为 1 个大 rds 文件而不将它们读入内存？

转载作者：行者123 更新时间：2023-12-03 17:23:09

25

4

我有 300 多个 .rds 文件，每个文件都具有相同的列名，并希望将它们绑定(bind)到一个压缩的 .rds 文件中，我可以通过 sftp 传输该文件。
有没有办法在不将它们读入内存的情况下有效地做到这一点？
目前我正在使用以下代码，但这会在写入文件之前最大化内存。任何想法都非常感谢。

library(tidyverse)
library(data.table)

df <- list.files(pattern = ".rds") %>%
         map(readRDS) %>% 
         data.table::rbindlist()

    saveRDS(df,"df.rds")

最终我一一阅读并使用了 read::write_csv("name.csv",append=TRUE)将它们附加到磁盘上。之后我使用 {disk.frame} 或 SQL 数据库来处理数据。

最佳答案

正如其他人评论的那样，追加/合并 .rds 可能是不可能的(或至少非常困难)文件。但是，如果它们是简单的列，那么将它们转换为 .csv 应该会有问题。 .在这种情况下，可以附加它们，假设(如您所说)它们具有匹配的列名。
此片段从 .rds 的列表中读取。文件名并将其数据附加到 .csv .我几乎没有 R 经验，所以我不确定如何管理底层资源，但原则上，这种方法应该允许您一次只读取一个文件，从而在构建时将内存消耗保持在 ~1GB您的 ~300GB .csv .

fileNames <- list('test-one.rds', 'test-two.rds')

for (fileName in fileNames)
{
    rds <- readRDS(fileName)
    for (row in rds){
        write(row, file = 'out.csv', append = TRUE)
    }
}

关于R:如何将 300 个 1GB .rds 文件合并为 1 个大 rds 文件而不将它们读入内存？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65020129/

25

4

0

文章推荐： python - 使用bbox参数从图像中去除水印

文章推荐： macos - LaunchAgent 未启动

文章推荐： objective-c - Cocoa 中的 Facebook 身份验证方法可以改进吗？

文章推荐： google-chrome - 使用假网络摄像头和真正的 micro 运行 Chromium

amazon-rds - RDS 集群和数据库实例概念
我需要创建 RDS Aurora 5.7 数据库。我想我对 RDS 的概念不是很清楚。这是正确的层次结构吗？ aws_rds_cluster -> aws_rds_cluster_instance -
amazon-rds - RDS 安全组入口规则
我正在开发包含 RDS 数据库的 CloudFormation 模板，并且我想将安全组附加到 RDS。有一个资源AWS::RDS::DBSecurityGroup我想编写自己的入口规则，通过附加此资源
amazon-rds - RDS 实例的规范名称
我有不同的 EC2 实例尝试访问 RDS 实例。我想在配置文件中预先设置 RDS 实例“规范名称”，以便在部署后我不需要对配置文件进行任何更改。我有以下问题: 无论如何，人们可以在cloudform
python - 使用python多处理器将数据导入到mysql RDS - RDS
当我在 python 中使用多处理器运行数据导入器时，发生了一些非常奇怪的行为。我相信这是一个数据库问题，但我不知道如何追踪它。下面是我正在做的过程的描述: 1) 运行 XX 个处理器的多处理器文件，
SpringBoot, Hibernate and AWS RDS (Aurora) with new CA rds-ca-ecc384-g1(SpringBoot、休眠和AWS RDS(Aurora)以及新的CA rds-ca-ecc384-G1)
我有一个SpringBoot应用程序，它使用以下配置与PostgreSQL通信，通过AWS Beanstrik部署：。在我将AWS Aurora证书更新为rds-ca-ecc384-g1之前，一切都很
amazon-rds - AWS RDS 保留期超过了实例设置中指定的期限
我有一个带有 PostgreSQL 的 AWS RDS 实例。在实例创建过程中，我将自动备份的最大保留期指定为 7。但我可以在快照部分看到过去 9 天的自动备份。有谁知道这里发生了什么？最佳答案
amazon-rds - Amazon RDS 实例是否可以升级？
我是否能够根据需要切换(我的意思是升级或降级)Amazon RDS 实例，还是必须重新创建一个新实例并进行迁移？最佳答案是，Amazon RDS 实例可通过 modify-db-instance
amazon-rds - AWS RDS 使用的操作系统
Amazon RDS 使用哪些操作系统。虽然我知道在使用 RDS 时我们只是暴露于一个端点，并且在内部我们使用的数据库可能受多个系统支持，但我想知道这些系统使用的操作系统是什么。最佳答案要检查 A
amazon-rds - 使用最新引擎版本创建 RDS 数据库集群
来自文档 https://docs.aws.amazon.com/AmazonRDS/latest/APIReference/API_CreateDBCluster.html ,CreateDBClu
amazon-rds - RDS 参数组 - 动态和静态
此处提到的动态参数与静态参数的示例是什么？ Here are some important points you should know about working with parameters i
amazon-rds - Amazon RDS 多可用区故障转移
正在考虑使用多可用区的 RDS Oracle 产品。我找不到一件事 - 如果您的主实例消失并且您故障转移到辅助实例，您会回到主实例吗？或者次要成为主要，然后另一个实例(可能是您的旧主要)成为次要？ R
amazon-web-services - 将 AWS RDS SSL/TLS 证书从 rds-ca-2015 更新为 rds-ca-2019
我们最近将 AWS rds 的 SSL 从 rds-ca-2015 更新为 rds-ca-2019。现在应用程序可以正常工作并与 SSL 连接，但我们现在无法使用 rds-ca-2019 确认 rds
amazon-rds - AWS EKS 节点访问 RDS
我让 AWS EKS 节点访问 RDS，其中我在 RDS 的安全组中将 EKS 节点的公共(public) IP 列入白名单。但这不是可行的解决方案，因为 EKS 节点可以被替换，其公共(public
amazon-rds - 如何在没有循环依赖的情况下使用 CDK 将安全组添加到现有 RDS
我有一个多堆栈应用程序，我想在一个堆栈中部署 RDS，然后在稍后的堆栈中部署一个连接到 RDS 的 Fargate 集群。以下是 rds 的定义方式: this.rdsSG = new ec
amazon-rds - RDS : Free Memory,事件内存和可释放内存的三个指标之间有什么关系？
AWS RDS的三个指标是什么:可用内存(增强监控)，事件内存(增强监控)和可用内存(CloudWatch监控)？它们之间是什么关系？看这两张照片。三个指标的值不同。的形象 enter ima
amazon-rds - 如何在不停机的情况下更改 AWS-RDS 实例类型？
我正在使用 AWS-RDS(Aurora MySQL5.6) 并且它是一个集群，它有一个写入器实例和一个读取器实例。我发现当我改变它的类型时，每个实例都会停机近 10 分钟，这是 Not Accept
amazon-rds - 如何减少我的 AWS RDS 实例的费用
我们目前每月为 RDS 使用支付 85-100 美元之间的费用。但大多数时候我们不访问我们的数据库实例。有没有办法通过关闭实例或进入共享数据库模式来减少计费。有哪些替代方案？最佳答案您可以随时使用
amazon-rds - Amazon RDS (postgres) 连接限制？
我搜索了网络并浏览了 RDS 文档，但似乎找不到开放连接限制。就其值(value)而言，我计划使用 RDS 的新 Postgres 风格，但我认为来自 mySQL 方面的答案也可以接受。谢谢! 最
amazon-rds - Terraform 计划想要销毁导入的 RDS 资源
我使用以下命令将之前部署的 RDS 实例替换为手动配置的 RDS 实例: ./terraform destroy -target aws_db_instance.my_db ./terraform i
amazon-rds - Terraform 计划想要销毁导入的 RDS 资源
我使用以下命令将之前部署的 RDS 实例替换为手动配置的 RDS 实例: ./terraform destroy -target aws_db_instance.my_db ./terraform i

首页

博学

6Ren·AI

商城

R:如何将 300 个 1GB .rds 文件合并为 1 个大 rds 文件而不将它们读入内存？