gpt4 book ai didi

r - 我应该使用哪些函数来处理 HDFS 上的 XDF 文件?

转载 作者:可可西里 更新时间:2023-11-01 14:49:21 25 4
gpt4 key购买 nike

我在 HDFS 集群上有一个 .xdf 文件,大约 10 GB,有近 70 列。我想将它读入 R 对象,以便我可以执行一些转换和操作。我试着用谷歌搜索它并找到了两个功能:

rxReadXdf

rxXdfToDataFrame

谁能告诉我首选函数,因为我想读取数据并在集群的每个节点上并行执行转换?

此外,如果我以 block 的形式读取和执行转换,是否必须合并每个 block 的输出?

提前感谢您的帮助。

干杯,阿密特

最佳答案

请注意,rxReadXdfrxXdfToDataFrame 有不同的参数,做的事情也略有不同:

  • rxReadXdf 有一个 numRows 参数,所以如果您想读取数据集的前 1000(比如说)行,请使用它
  • rxXdfToDataFrame 支持 rxTransforms , 所以如果除了读取数据之外还想操作数据,请使用它
  • rxXdfToDataFrame 也有 maxRowsByCols 参数,这是另一种限制输入大小的方法

因此,在您的情况下,您希望使用 rxXdfToDataFrame,因为除了读取数据之外,您还要转换数据。如果您只想读取数据(无转换),rxReadXdf 在本地计算上下文中会更快一些。 HDFS 可能也是如此,但我还没有检查过。

但是,您确定要将数据读入数据框吗?您可以使用 rxDataStep 在 xdf 文件上运行(几乎)任意 R 代码,同时仍保留该格式的数据。有关如何使用转换参数的信息,请参阅链接的文档页面。

关于r - 我应该使用哪些函数来处理 HDFS 上的 XDF 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30752827/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com