gpt4 book ai didi

R将大型CSV文件转换为HDFS

转载 作者:行者123 更新时间:2023-12-02 21:41:20 27 4
gpt4 key购买 nike

我目前正在使用 R 进行分析。

我有大量的 CSV 文件,它们都具有我想使用 R 处理的相同标题。我最初将每个文件顺序读入 R 并将它们绑定(bind)在一起,然后再一起执行分析。

需要读入的文件数量正在增长,因此将它们全部保存在内存中以对数据进行操作变得不可行。

我可以在不使用 R 的情况下将所有 CSV 文件组合在一起,因此不会将其保存在内存中。这留下了一个巨大的 CSV 文件,将其转换为 HDFS 是否有意义以便能够进行相关分析?除此之外......或者单独对每个csv文件进行分析然后最后合并它会更有意义?

我在想可能是一个分布式文件系统,并在亚马逊上使用一组机器来有效地进行分析。

rmr here ,它将数据转换为 HDFS,但对于真正的大数据显然并不令人惊讶......如何以一种允许有效分析的方式转换 csv?

最佳答案

您可以将复合 csv 文件构建到 hdfs 中。首先,您可以先创建一个空的 hdfs 文件夹。然后,将每个 csv 文件分别拉入 hdfs 文件夹。最后,您将能够将该文件夹视为单个 hdfs 文件。

为了将文件拉入 hdfs,您可以使用终端 for 循环、rhdfs 包,或者将文件加载到内存中并将用户加载到 .dfs(尽管我不建议您使用最后一个选项)。请记住从文件中删除标题。

使用 rmr2,我建议您先将 csv 转换为原生 hdfs 格式,然后对其进行分析。您应该能够处理大数据量。

关于R将大型CSV文件转换为HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28505103/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com