gpt4 book ai didi

apache-spark - 使用 spark dataFrame 从 HDFS 加载数据

转载 作者:行者123 更新时间:2023-12-04 05:11:43 27 4
gpt4 key购买 nike

我们可以在从 HDFS 读取数据时使用 DataFrame 吗?
我在 HDFS 中有一个制表符分隔的数据。

我用谷歌搜索,但看到它可以与 NoSQL 数据一起使用

最佳答案

DataFrame 当然不限于 NoSQL 数据源。 Parquet、ORC 和 JSON 支持在 1.4 到 1.6.1 中原生提供;使用 spark-cvs 包支持文本分隔文件。

如果您的 tsv 文件位于/demo/data 的 HDFS 中,则以下代码会将文件读入 DataFrame

sqlContext.read.
format("com.databricks.spark.csv").
option("delimiter","\t").
option("header","true").
load("hdfs:///demo/data/tsvtest.tsv").show

要从 spark-shell 运行代码,请使用以下命令:
--packages com.databricks:spark-csv_2.10:1.4.0

在 Spark 2.0 中,原生支持 csv,因此您应该能够执行以下操作:
spark.read.
option("delimiter","\t").
option("header","true").
csv("hdfs:///demo/data/tsvtest.tsv").show

关于apache-spark - 使用 spark dataFrame 从 HDFS 加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37638618/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com