gpt4 book ai didi

apache-spark - 每种格式的写入或读取选项的引用在哪里?

转载 作者:行者123 更新时间:2023-12-03 23:29:25 24 4
gpt4 key购买 nike

我使用 Spark 1.6.1。

我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS。虽然我们可以使用

df.write().orc(<path>)

我们宁愿做类似的事情
df.write().options(Map("format" -> "orc", "path" -> "/some_path")

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到对可以传递给 DataFrameWriter 的选项的引用?我在这里的文档中什么也没找到

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

最佳答案

Where can we find a reference to the options that can be passed into the DataFrameWriter?


最权威最权威的答案是 sources :
  • CSVOptions
  • JDBCOptions
  • JSONOptions
  • ParquetOptions
  • TextOptions
  • OrcOptions
  • ...

  • 您可能会在文档中找到一些描述,但没有单个页面(可能从源代码自动生成以保持最新状态)。
    原因是这些选项有意与格式实现分开,以便为每个用例提供您想要提供的灵活性(如您所见):

    This is so that we have the flexibility to change the format or root path depending on the application that uses this helper library.



    您的问题似乎类似于 How to know the file formats supported by Databricks?我说:

    Where can I get the list of options supported for each file format?


    这是不可能的,因为有 要遵循的 API(如在 Spark MLlib 中)来定义选项。每种格式都是自己做的……不幸的是,最好的办法是阅读文档或(更权威的)源代码。

    关于apache-spark - 每种格式的写入或读取选项的引用在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44365042/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com