gpt4 book ai didi

hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 15:32:49 31 4
gpt4 key购买 nike

我有一个使用 Spark Streaming 创建的摄取管道,我想将 RDD 作为大型非结构化 (JSONL) 数据文件存储在 hadoop 中,以简化 future 的分析。

将 astream 持久化到 hadoop 而不会产生大量小文件的最佳方法是什么? (因为 hadoop 不适合这些,而且它们使分析工作流程复杂化)

最佳答案

首先,我建议使用可以像 Cassandra 一样处理这种情况的持久层。但是,如果您对 HDFS 死心塌地,那么 the mailing list has an answer already

您可以使用 FileUtil.copyMerge(来自 hadoop fs)API 并指定 saveAsTextFiles 保存部分文本文件的文件夹路径。假设你的目录是/a/b/c/使用

FileUtil.copyMerge(FileSystem of source, a/b/c, 
FileSystem of destination, Path to the merged file say (a/b/c.txt),
true(to delete the original dir,null))

关于hadoop - 使用 Spark Streaming 将非结构化数据持久化到 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29904553/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com