python - 如何在 pyspark 中设置 spark.sql.parquet.output.committer.class-6ren

python - 如何在 pyspark 中设置 spark.sql.parquet.output.committer.class

转载作者：太空狗更新时间：2023-10-30 01:27:37

28

4

我正在尝试设置 spark.sql.parquet.output.committer.class而且我所做的一切似乎都没有使设置生效。

我试图让许多线程写入同一个输出文件夹，这将与 org.apache.spark.sql 一起工作。 parquet.DirectParquetOutputCommitter 因为它不会使用 _temporary 文件夹。我收到以下错误，这就是我知道它不起作用的原因:

Caused by: java.io.FileNotFoundException: File hdfs://path/to/stuff/_temporary/0/task_201606281757_0048_m_000029/some_dir does not exist.
        at org.apache.hadoop.hdfs.DistributedFileSystem.listStatusInternal(DistributedFileSystem.java:795)
        at org.apache.hadoop.hdfs.DistributedFileSystem.access$700(DistributedFileSystem.java:106)
        at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:853)
        at org.apache.hadoop.hdfs.DistributedFileSystem$18.doCall(DistributedFileSystem.java:849)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.listStatus(DistributedFileSystem.java:849)
        at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java:382)
        at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.mergePaths(FileOutputCommitter.java:384)
        at org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.commitJob(FileOutputCommitter.java:326)
        at org.apache.parquet.hadoop.ParquetOutputCommitter.commitJob(ParquetOutputCommitter.java:46)
        at org.apache.spark.sql.execution.datasources.BaseWriterContainer.commitJob(WriterContainer.scala:230)
        at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelation.scala:151)

注意对默认类 org.apache.parquet.hadoop.ParquetOutputCommitter.commitJob 的调用。

我已经根据其他 SO 答案和搜索尝试了以下方法:

sc._jsc.hadoopConfiguration().set(key, val)(这确实适用于 parquet.enable.summary-metadata 等设置)
dataframe.write.option(key, val).parquet
添加 --conf "spark.hadoop.spark.sql.parquet.output.committer.class=org.apache.spark.sql.parquet.DirectParquetOutputCommitter" 到 spark-提交调用
添加 --conf "spark.sql.parquet.output.committer.class"="org.apache.spark.sql.parquet.DirectParquetOutputCommitter" 到 spark-submit调用。

这就是我所能找到的所有内容，但没有任何效果。看起来不难set in Scala但在 Python 中似乎是不可能的。

最佳答案

this comment 中的方法最终对我有用:

16/06/28 18:49:59 INFO ParquetRelation: Using user defined output committer for Parquet: org.apache.spark.sql.execution.datasources.parquet.DirectParquetOutputCommitter

这是 Spark 提供的洪水中丢失的日志消息，与我看到的错误无关。无论如何，这一切都没有实际意义，因为 DirectParquetOutputCommitter 一直是 removed from Spark .

关于python - 如何在 pyspark 中设置 spark.sql.parquet.output.committer.class，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38083563/

28

4

0

文章推荐： python - 在 any() 语句中迭代一个小列表是否更快？

文章推荐： c# - 如何将数据存储在本地表中并在 C# 中呈现

文章推荐： python - C中的快速二维卷积

parquet - parquet 可以支持并发写操作吗？
是否可以对 parquet 格式执行分布式并发写入？是否可以在写入拼花文件时读取它们？如果有并发读/写的方法，我有兴趣了解。提前感谢您的帮助。最佳答案我最终得到了 Parquet 开发人员的
parquet - 从命令行检查 Parquet
如何从命令行检查 Parquet 文件的内容？我现在看到的唯一选择是 $ hadoop fs -get my-path local-file $ parquet-tools head local-f
parquet - 如何使用 parquet-avro 在 parquet 文件中创建日期类型列
我正在使用基于 Java(1.8) 的应用程序使用库创建 Parquet 文件 org.apache.avro.Schema 和 org.apache.parquet.hadoop.ParquetWr
apache-spark - 为什么我不能使用 "cat file1.parquet file2. parquet > result.parquet"合并多个 Parquet 文件？
我已经使用 pyspark 创建了多个 parquet 文件，现在我正在尝试将所有 parquet 文件合并为 1 个。我能够合并这些文件，但是在读取生成的文件时，我遇到了错误。以前有人遇到过这个问题
parquet - 为什么排序后的 parquet 文件比未排序的文件大？
我创建了一个数据框，如下所示: expanded_1 = pd.DataFrame({"Point": [random.choice(points) for x in range(30000000)]
parquet - 如何读取箭头 Parquet 键值元数据？
当我在 R 和 Python 中保存 Parquet 文件(使用 pyarrow)时，我得到一个保存在元数据中的箭头模式字符串。如何读取元数据？它是 Flatbuffer 编码数据吗？架构的定义在哪
parquet - 是否可以分块读取 Parquet 文件？
例如，pandas 的 read_csv有一个 chunk_size允许 read_csv 的参数在 CSV 文件上返回一个迭代器，以便我们可以分块读取它。 Parquet 格式以块的形式存储数据，但
parquet - 无法从命令行获取 Parquet 工具
我正在尝试运行最新版本的 Parquet 工具，但遇到了一些问题。出于某种原因org.apache.hadoop.conf.Configuration不在阴影的 jar 里。 (我对 v1.6.0 也
parquet - 创建 Parquet 文件时如何避免创建.crc文件
我正在使用 Parquet 框架来编写 Parquet 文件。我使用此构造函数创建了 Parquet 作家- public class ParquetBaseWriter extends Parqu
parquet - 使用 presto 查询本地 Parquet
使用 spark 和钻头，我可以查询本地 Parquet 文件。 presto 是否提供相同的功能？换句话说，是否可以使用 presto 查询本地 Parquet 文件 - 无需通过 HDFS 或
parquet - 如何从 InputStream 读取 Parquet 记录
我有一个加密的 parquet 数据文件，它被读取为一个输入流。我想从此输入流中提取单个 Parquet 记录。有什么办法可以做到这一点吗？在 avro 中，使用 DatumReader 是可能的。我
parquet - 写入 Delta 编码的 Parquet 文件
我知道 Apache Arrow Parquet 可以读取符合规范的 Delta 编码文件，但不能将它们写出。我想知道是否有任何常用的开源 C++/Python 库可以写出符合 Parquet 规范的
parquet - 在 DuckDB 中读取分区的 Parquet 文件
背景: DuckDB 允许直接查询 parquet 文件。例如con.execute("从'Hierarchy.parquet'中选择 *) Parquet 允许按列值对文件进行分区。当一个 Parq
python - 使用python将一个 Parquet 文件分成3个 Parquet 文件
有没有办法将一个巨大的 parquet 文件分成较小的文件(使用 Python)？保留所有列并划分行？谢谢最佳答案你可以用 dask 来做. import dask.dataframe as dd
parquet - 使用从 parquet 文件创建的 dask 数据帧时内存使用过多
我的 Parquet 文件为 800K 行 x 8.7K 列。我将其加载到 dask 数据框中: import dask.dataframe as dd dask_train_df = dd.read
parquet - 如何使用 Pyarrow 更改 Parquet 文件中列的名称？
我有数百个用 PyArrow 创建的 Parquet 文件。然而，其中一些文件的字段/列的名称(我们称其为 Orange)与原始列(称其为 Sporange)略有不同，因为其中一个使用了查询的变体。否
hadoop - 如何限制配置单元中 Parquet 表的 Parquet 文件尺寸？
我正在尝试在配置单元中创建 Parquet 表。我可以创建它，但是当我运行 analyze table mytable compute statistics 时；我得到这个结果: numfiles=8
hadoop - 拥有一个大的 parquet 文件还是许多较小的 parquet 文件更好？
我知道 hdfs 会将文件拆分成大约 64mb 的 block 。我们有流式传输的数据，我们可以将它们存储到大文件或中等大小的文件中。列式文件存储的最佳大小是多少？如果我可以将文件存储到最小列为 64
parquet - Apache 的 Parquet Java API 的文档？
我想使用 Apache 的 parquet-mr 项目通过 Java 以编程方式读取/写入 Parquet 文件。我似乎找不到任何有关如何使用此 API 的文档(除了查看源代码并查看它的使用方式)——
sql - 尝试将数据从 Impala Parquet 表复制到非 Parquet 表
我在 Impala 中移动数据，而不是我的设计，我丢失了一些数据。我需要将数据从 Parquet 表复制回它们原来的非 Parquet 表。最初，开发人员使用脚本中的一个简单的一行来完成此操作。由于我

首页

博学

6Ren·AI

商城

python - 如何在 pyspark 中设置 spark.sql.parquet.output.committer.class