gpt4 book ai didi

python - 在 Pyspark 中使用 Hadoop InputFormat

转载 作者:行者123 更新时间:2023-12-01 03:18:30 25 4
gpt4 key购买 nike

我正在为 Spark 开发一个文件解析器,它基本上可以一次读取 n 行,并将所有这些行作为数据帧中的一行放置。
我知道我需要使用 InputFormat 来尝试指定这一点,但我在 Python 中找不到对此的良好指南。
是否有在 Python 中指定自定义 InputFormat 的方法,或者我需要将其创建为 scala 文件,然后在 spark-submit 中指定 jar?

最佳答案

您可以直接将InputFormats与Pyspark一起使用。

引自documentation ,

PySpark can also read any Hadoop InputFormat or write any Hadoop OutputFormat, for both ‘new’ and ‘old’ Hadoop MapReduce APIs.

HadoopInputFormat 类传递给 pyspark.SparkContext 的任何适合的方法,

要读取 n 行,org.apache.hadoop.mapreduce.lib.NLineInputFormat 可以用作具有 newAPI 方法的 HadoopInputFormat 类。

关于python - 在 Pyspark 中使用 Hadoop InputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42232713/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com