gpt4 book ai didi

java - 如何在java中使用spark从AWS S3读取.xls文件?并且无法读取sheetName

转载 作者:太空宇宙 更新时间:2023-11-04 09:38:09 28 4
gpt4 key购买 nike

我尝试从 AWS S3 读取 .xls 文件,但收到 java.io.FileNotFoundException 异常。

我尝试了以下两种方法。一种是在 option() 中给出带有关键位置的路径,另一种是在 load() 中添加相同的路径。

Dataset<Row> segmentConfigData = spark.read()
.format("com.crealytics.spark.excel")
.option("sheetName", "sheet1")
.option("header","true")
.option("location","s3a://input/552SegmentConfig.xls")
.option("useHeader", "true")
.option("treatEmptyValuesAsNulls", "true")
.option("inferSchema", "true")
.option("addColorColumns", "False")
.load();

Dataset<Row> segmentConfigData = spark.read()
.format("com.crealytics.spark.excel")
.option("sheetName", "sheet1")
.option("header","true")
.option("location","s3a://input/552SegmentConfig.xls")
.option("useHeader", "true")
.option("treatEmptyValuesAsNulls", "true")
.option("inferSchema", "true")
.option("addColorColumns", "False")
.load("s3a://input/552SegmentConfig.xls");

我收到文件未找到异常。同样,当我读取 .csv 文件时,我能够读取该文件。

编辑-我已经解决了这个问题。我使用的是旧版本的“com.crealytics.spark.excel”。一旦我取消了 jar 的评级,我就可以准备好了。

但现在我面临另一个问题。除了第一页之外,我无法阅读任何其他表格。有什么帮助吗?

最佳答案

我已经解决了这个问题。我使用的是旧版本的“com.crealytics.spark.excel”。一旦我取消了 jar 的评级,我就可以准备好了。

此外,我只能读取 (.xls) 文件的第一页。下面是代码片段:

spark.read()
.format("com.crealytics.spark.excel")
.option("location",path)
.option("sheetName", sheetName)
.option("dataAddress", "'"+sheetName+"'!A1")
.option("header","true")
.option("useHeader", "true")
.option("treatEmptyValuesAsNulls", "true")
.option("inferSchema", "true")
.option("addColorColumns", "False")
.load(path);

关于java - 如何在java中使用spark从AWS S3读取.xls文件?并且无法读取sheetName,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56251705/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com