gpt4 book ai didi

hadoop - 在 Hadoop 上处理大科学数据

转载 作者:可可西里 更新时间:2023-11-01 14:25:47 26 4
gpt4 key购买 nike

我目前正在启动一个名为“使用 Hadoop 进行时间序列挖掘算法的云计算”的项目。我拥有的数据是大小超过 TB 的 hdf 文件。在 hadoop 中,我知道我们应该将文本文件作为输入以进行进一步处理(map-reduce 任务)。所以我有一个选择,将我所有的 .hdf 文件转换为文本文件,这会花费很多时间。

或者我找到了一种在 map reduce 程序中使用原始 hdf 文件的方法。到目前为止,我还没有成功找到任何读取 hdf 文件并从中提取数据的 java 代码。如果有人对如何使用 hdf 文件有更好的了解,我将非常感谢这样的帮助。

谢谢阿尤什

最佳答案

这里有一些资源:

  • SciHadoop (使用 netCDF 但可能已经扩展到 HDF5)。
  • 您可以使用 JHDF5或下级官员Java HDF5 interface在 map-reduce 任务中从任何 HDF5 文件中读取数据。

关于hadoop - 在 Hadoop 上处理大科学数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11653987/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com