- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我在 Python 中工作,使用 Hadoop 和 PySpark。我在代码末尾输出了一个 RDD(我已经验证它输出正确),我正在尝试使用 .saveAsTextFile()
方法将其保存为文本文件。代码运行完成并生成一个 _success
文件,但目录的其余部分为空。
outputFile='hdfs:///data/withCoalesce'
combinedTable= all_transactions_reduced.join(credit_payments_reduced)
combinedTableMapped= combinedTable.map(lambda x: (x[0], list(x[1][0])+x[1][1]))
combinedTableMapped.coalesce(1, shuffle=True).saveAsTextFile(outputFile)
当我进入 Hadoop FS 并查看目录中的文件时,它们都是空的。有谁知道为什么会这样?谢谢!
最佳答案
在 saveAsTextFile()
调用之前,使用 collect()
检索和打印数据。这应该告诉您 RDD 中到底是什么。最简单的解释是 RDD 是否为空。
为什么要执行 coalesce(1)
?这会阻止您处理大量数据。我建议不要这样做。但是,如果数据很小,并且您真的想要一个文件,您可以只使用 collect()
并从驱动程序写入文件,而不是使用 saveAsTextFile()
.
关于python - SaveAsTextFile 不写,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28003231/
我尝试使用 pyspark 从 HDFS 提取文件后尝试修改我的文件,然后我想将其保存在HDFS中,因为我已经编写了以下代码。 代码: import subprocess from subproces
我使用了以下格式的数据源,最多 1500000 1 2 3 4 5 .. 1500000 我使用了以下代码片段 JavaRDD dataCollection=ctx.textFile("hdfs://
我在 Python 中工作,使用 Hadoop 和 PySpark。我在代码末尾输出了一个 RDD(我已经验证它输出正确),我正在尝试使用 .saveAsTextFile() 方法将其保存为文本文件。
这个问题在这里已经有了答案: how to make saveAsTextFile NOT split output into multiple file? (9 个回答) 5年前关闭。 目前我正在笔
在 Spark 中使用 Scala 时,每当我使用 saveAsTextFile 转储结果时,它似乎将输出分成多个部分。我只是向它传递一个参数(路径)。 val year = sc.textFile(
我正在尝试使用rdd.saveAsTextFile("file path")将rdd内容写入文本文件。 此方法没有处理任何异常。 基本上,如果在将 rdd 保存为文本文件时发生某些情况,我需要捕获异常
在下面的代码片段中,saveAsTxtFile 会将其写入以逗号分隔格式的文件中。相反,我希望将数据作为对象保存在内存中并对其进行操作。 val logFile = "/tmp/master.txt"
我使用 Apache Spark 在 Java 中实现了以下代码。我在 AWS EMR 上运行这个程序。我刚刚从文件中的字数统计示例中实现了一个简单的程序。我正在从 HDFS 读取文件。 public
我正在研究 Scala 中的 ETL 过程。我的原始日志文件有很多列(大约 70 列)。我尝试使用 Row() 对象将其保存到文件中: val base_RDD = rawData.map{r =>
默认情况下,较新版本的 Spark 在保存文本文件时使用压缩。例如: val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsT
这个问题在这里已经有了答案: How to overwrite the output directory in spark (9 个回答) 关闭 6 年前。 我正在运行这个命令行: hadoop f
我是 Spark、Hadoop 以及所有相关产品的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在 HDFS 上,以便构建基于 HBase 的报告。 我想在调用 saveAsTextFi
我在尝试合并和保存 RDD 时遇到了 NPE。 代码在本地工作,和在 scala shell 中的集群上工作,但在将其作为作业提交到集群时抛出错误。 我尝试使用 take() 打印出来以查看 rdd
首先,我加入了两个数据帧,第一个 DF 从第二个 DF 中过滤出来,大约 8MB(260,000 条记录),第二个 DF 来自 cca 2GB(37,000,000 条记录)的文件。然后我打电话 jo
我在 Spark 中创建了数据,然后执行了连接操作,最后我必须将输出保存到分区文件中。 我正在将数据框转换为 RDD,然后另存为允许我使用多字符定界符的文本文件。我的问题是在这种情况下如何使用数据框列
是否可以将 spark rdd 文本文件保存为 gzip? 我可以以某种方式运行它吗:combPrdGrp3.repartition(10).saveAsTextFile("Combined")并将其
我有一个很大的 RDD,需要花费很多时间来收集。我想通过使用 mapPartitionsWithIndex 将每个分区的内容写入一个文本文件。但这不是异步方法。 有没有人知道如何异步写出 RDD 内容
我是Spark和Scala编程的新手。 我试图使用Scala执行简单的pagerank算法。但是我在编译时遇到了这个错误。 error: value saveAsTextFile is not a m
我正在 Hadoop YARN 集群上运行 Spark 作业。 我正在使用 saveAsTextFile() 方法将 RDD 存储到文本文件。 我可以看到在 250 个文件中创建了 150 多个空零件
我有以下类(class): public final class Derived extends AbstractBase implements Serializable { private
我是一名优秀的程序员,十分优秀!