gpt4 book ai didi

amazon-s3 - 尝试使用 AWS Glue 中的笔记本创建动态框架时出现错误 "java.io.FileNotFoundException: No such file or directory"

转载 作者:行者123 更新时间:2023-12-04 12:21:34 24 4
gpt4 key购买 nike

我正在 AWS Glue 中设置一个新的 Jupyter Notebook 作为开发端点,以便测试一些用于运行 ETL 脚本的代码。到目前为止,我使用 AWS Glue 创建了一个基本的 ETL 脚本,但是由于某种原因,当我尝试在 Jupyter Notebook 上运行代码时,我不断收到 FileNotFoundException .

我正在使用由 AWS Crawler 创建的表(在数据目录中)来获取与 S3 存储桶关联的信息,并且我能够实际获取存储桶内的文件名,但是当我尝试读取文件时使用动态框架,FileNotFoundException被抛出。

以前有人遇到过这个问题吗?

这是在 N.Virginia AWS 账户上运行的。我已经设置了权限,向 AWS Glue 服务授予了 IAM 角色,设置了 VPC 端点并尝试直接在 AWS Glue 中运行作业,但无济于事。

这是基本代码:

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "xxx-database", table_name = "mytable_item", transformation_ctx = "datasource0")

datasource0.printSchema()
datasource0.show()

或者:

datasource0 = glueContext.create_dynamic_frame.from_options('s3', connection_options={"paths":["s3://my-bucket/92387979/My-Table-Item/2016-09-11T16:30:00.000Z/"]}, format="json", transformation_ctx="")


datasource0.printSchema()
datasource0.show()

我希望收到一个动态帧内容,但这实际上是在抛出这个错误:
An error occurred while calling o343.schema.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 8.0 failed 4 times, most recent failure: Lost task 0.3 in stage 8.0 (TID 23, ip-172-31-87-88.ec2.internal, executor 6): java.io.FileNotFoundException: No such file or directory 's3://my-bucket/92387979/My-Table-Item/2016-09-11T16:30:00.000Z/92387979-My-Table-Item-2016-09-11T16:30:00.000Z.json.gz'
at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:826)
at com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.open(S3NativeFileSystem.java:1206)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:773)
at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.open(EmrFileSystem.java:166)
at com.amazonaws.services.glue.hadoop.TapeHadoopRecordReader.initialize(TapeHadoopRecordReader.scala:99)
at org.apache.spark.rdd.NewHadoopRDD$$anon$1.liftedTree1$1(NewHadoopRDD.scala:182)
at org.apache.spark.rdd.NewHadoopRDD$$anon$1.<init>(NewHadoopRDD.scala:179)
at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:134)
at org.apache.spark.rdd.NewHadoopRDD.compute(NewHadoopRDD.scala:69)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.UnionRDD.compute(UnionRDD.scala:105)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)

在此先感谢您提供的任何帮助。

最佳答案

那么,作为Chris D'EnglereHarsh Bafna指出,这确实是一个许可问题。事实证明,我忘记为存储桶内的对象 ( GetObject ) 添加特定的 S3 权限,而不仅仅是存储桶本身。

谢谢您的帮助!

关于amazon-s3 - 尝试使用 AWS Glue 中的笔记本创建动态框架时出现错误 "java.io.FileNotFoundException: No such file or directory",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56958870/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com