JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'-6ren

JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'

转载作者：可可西里更新时间：2023-11-01 14:49:02

29

4

我正在使用 Spark 在 JAVA 中编写程序。

我有一个名为“copied_logs”的 JavaRDD，它使用映射并从位于 hdfs 上的日志中复制几个字段。

现在，我想用 Bzip2 压缩“copied_logs”然后保存。我想使用“saveAsTextFile”函数将这些数据保存在 hdfs 上。我的压缩保存代码如下:

    CompressionCodec codec = new BZip2Codec();
    copied_logs.saveAsTextFile(output_dir + "copied_logs.json", codec);

但是我得到这个错误:

Error:(128, 69) java: incompatible types: org.apache.hadoop.io.compress.CompressionCodec cannot be converted to java.lang.Class<? extends org.apache.hadoop.io.compress.CompressionCodec>

谢谢。

最佳答案

saveAsTextFile 方法的第二个参数是类类型 (doc)。因此，您需要传递.class 对象。

类似于:

copied_logs.saveAsTextFile(output_dir + "copied_logs.json", BZip2Codec.class)

关于JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34308318/

29

4

0

文章推荐： mysql - Sqoop 使用 Java API 导入到 Hbase 表

文章推荐： java - 从 Spark 类路径中删除 Jars

文章推荐： javascript - 为什么 Youtube 评论不触发 DOM 突变？

文章推荐： hadoop - cassandra可以在非hadoop环境下工作吗

python - 'unicode'对象没有属性 'saveAsTextFile'
我尝试使用 pyspark 从 HDFS 提取文件后尝试修改我的文件，然后我想将其保存在HDFS中，因为我已经编写了以下代码。代码: import subprocess from subproces
java - saveAsTextFile 性能改进
我使用了以下格式的数据源，最多 1500000 1 2 3 4 5 .. 1500000 我使用了以下代码片段 JavaRDD dataCollection=ctx.textFile("hdfs://
python - SaveAsTextFile 不写
我在 Python 中工作，使用 Hadoop 和 PySpark。我在代码末尾输出了一个 RDD(我已经验证它输出正确)，我正在尝试使用 .saveAsTextFile() 方法将其保存为文本文件。
scala - Spark saveAsTextFile() 写入多个文件而不是一个
这个问题在这里已经有了答案: how to make saveAsTextFile NOT split output into multiple file? (9 个回答) 5年前关闭。目前我正在笔
scala - 如何使 saveAsTextFile 不将输出拆分为多个文件？
在 Spark 中使用 Scala 时，每当我使用 saveAsTextFile 转储结果时，它似乎将输出分成多个部分。我只是向它传递一个参数(路径)。 val year = sc.textFile(
java - rdd.saveAsTextFile() 未处理异常
我正在尝试使用rdd.saveAsTextFile("file path")将rdd内容写入文本文件。此方法没有处理任何异常。基本上，如果在将 rdd 保存为文本文件时发生某些情况，我需要捕获异常
java - 从对象访问数据而不是使用 saveAsTextFile 保存数据
在下面的代码片段中，saveAsTxtFile 会将其写入以逗号分隔格式的文件中。相反，我希望将数据作为对象保存在内存中并对其进行操作。 val logFile = "/tmp/master.txt"
hadoop - Spark saveAsTextFile 创建目录
我使用 Apache Spark 在 Java 中实现了以下代码。我在 AWS EMR 上运行这个程序。我刚刚从文件中的字数统计示例中实现了一个简单的程序。我正在从 HDFS 读取文件。 public
scala - 如何格式化 saveAsTextFile 的输出？
我正在研究 Scala 中的 ETL 过程。我的原始日志文件有很多列(大约 70 列)。我尝试使用 Row() 对象将其保存到文件中: val base_RDD = rawData.map{r =>
scala - Spark : saveAsTextFile without compression
默认情况下，较新版本的 Spark 在保存文本文件时使用压缩。例如: val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsT
java - Spark `FileAlreadyExistsException` when `saveAsTextFile` 即使输出目录不存在
这个问题在这里已经有了答案: How to overwrite the output directory in spark (9 个回答) 关闭 6 年前。我正在运行这个命令行: hadoop f
hadoop - 调用 Spark SaveAsTextFile 方法时如何获取生成的文件名
我是 Spark、Hadoop 以及所有相关产品的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在 HDFS 上，以便构建基于 HBase 的报告。我想在调用 saveAsTextFi
java - Spark NullPointerException 与 saveAsTextFile
我在尝试合并和保存 RDD 时遇到了 NPE。代码在本地工作，和在 scala shell 中的集群上工作，但在将其作为作业提交到集群时抛出错误。我尝试使用 take() 打印出来以查看 rdd
apache-spark - Spark 中的 saveAsTextFile 函数是否将数据传输到驱动程序？
首先，我加入了两个数据帧，第一个 DF 从第二个 DF 中过滤出来，大约 8MB(260,000 条记录)，第二个 DF 来自 cca 2GB(37,000,000 条记录)的文件。然后我打电话 jo
scala - 如何使用 saveAsTextFile 在 spark 数据框中进行自定义分区
我在 Spark 中创建了数据，然后执行了连接操作，最后我必须将输出保存到分区文件中。我正在将数据框转换为 RDD，然后另存为允许我使用多字符定界符的文本文件。我的问题是在这种情况下如何使用数据框列
apache-spark - spark RDD saveAsTextFile gzip
是否可以将 spark rdd 文本文件保存为 gzip？我可以以某种方式运行它吗:combPrdGrp3.repartition(10).saveAsTextFile("Combined")并将其
apache-spark - Spark RDD.saveAsTextFile 异步
我有一个很大的 RDD，需要花费很多时间来收集。我想通过使用 mapPartitionsWithIndex 将每个分区的内容写入一个文本文件。但这不是异步方法。有没有人知道如何异步写出 RDD 内容
scala - 错误: value saveAsTextFile is not a member of Unit
我是Spark和Scala编程的新手。我试图使用Scala执行简单的pagerank算法。但是我在编译时遇到了这个错误。 error: value saveAsTextFile is not a m
java - YARN 上的 Spark - saveAsTextFile() 方法创建大量空零件文件
我正在 Hadoop YARN 集群上运行 Spark 作业。我正在使用 saveAsTextFile() 方法将 RDD 存储到文本文件。我可以看到在 250 个文件中创建了 150 多个空零件
java - Spark : . saveAsTextFile 丢失 Java 对象的继承字段
我有以下类(class): public final class Derived extends AbstractBase implements Serializable { private

首页

博学

6Ren·AI

商城

JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'