- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为什么spark在将结果保存到文件系统时,将结果文件上传到_temporary目录,然后将它们移动到输出文件夹而不是直接上传到输出文件夹?
最佳答案
在使用文件系统时,两阶段过程是确保最终结果一致性的最简单方法。
您必须记住,每个执行器线程都独立于其他线程写入其结果集,并且写入可以在不同的时间执行,甚至可以重用相同的资源集。在写入时 Spark 无法确定是否所有写入都会成功。
关于apache-spark - Spark _temporary 创建原因,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46882683/
Spark 将正在进行的处理数据存储在 _temporary 文件夹中。作业完成后,数据将移动到其最终目的地。但是,当有数万个分区时,将文件从一个地方移动到另一个地方需要相当长的时间。问题:如何加快这
为什么spark在将结果保存到文件系统时,将结果文件上传到_temporary目录,然后将它们移动到输出文件夹而不是直接上传到输出文件夹? 最佳答案 在使用文件系统时,两阶段过程是确保最终结果一致性的
运行后 hdfs dfs -rm -r -skipTrash hdfs://valid/output/path hdfs dfs -ls hdfs://valid/output/path 并验证此输出
是否可以更改 _temporary spark在写入之前保存其临时文件的目录? 特别是,由于我正在编写表的单个分区,因此我希望临时文件夹位于分区文件夹中。 有可能吗? 最佳答案 由于它的实现,没有办法
在 Azure HDInsight 集群上使用 Python,我们使用以下代码将 Spark 数据帧作为 Parquet 文件保存到 Azure Data Lake Storage Gen2: df.
我需要将数据帧上传到 S3 存储桶,但我对存储桶没有删除权限。有什么办法可以避免在 S3 上创建这个 _temporary 目录?也许在 spark 中以任何方式使用本地 FS 作为 _tempora
我正在使用 pyspark 从 Amazon S3 上的 Parquet 文件中读取数据帧,例如 dataS3 = sql.read.parquet("s3a://" + s3_bucket_in)
我使用pyspark 并使用 MLUtils saveaslibsvm在标记点上保存 RDD 它可以工作,但会将该文件保留在/_temporary/下所有工作节点中的多个文件中。 没有抛出错误,我想将
我是一名优秀的程序员,十分优秀!