gpt4 book ai didi

hadoop - 调用 Spark SaveAsTextFile 方法时如何获取生成的文件名

转载 作者:可可西里 更新时间:2023-11-01 15:31:59 27 4
gpt4 key购买 nike

我是 Spark、Hadoop 以及所有相关产品的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在 HDFS 上,以便构建基于 HBase 的报告。

我想在调用 saveAsTextFile RRD 方法时获取生成的文件名,以便将其导入 Hive。

请随时询问更多信息,在此先致谢。

最佳答案

saveAsTextFile 将创建一个序列文件目录。所以如果你给它路径“hdfs://user/NAME/saveLocation”,一个名为 saveLocation 的文件夹将被创建,里面装满了序列文件。您应该能够通过将目录名称传递给 HBase 将其加载到 HBase 中(顺序文件是 Hadoop 中的标准)。

不过,我确实建议您考虑保存为 parquet,它们比标准文本文件有用得多。

关于hadoop - 调用 Spark SaveAsTextFile 方法时如何获取生成的文件名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31521541/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com