- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我使用pyspark
并使用 MLUtils saveaslibsvm在标记点上保存 RDD
它可以工作,但会将该文件保留在/_temporary/下所有工作节点中的多个文件中。
没有抛出错误,我想将文件保存在正确的文件夹中,并且最好将所有输出保存到位于节点或主节点上的一个 libsvm 文件中。
这可能吗?
编辑+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++无论我做什么,我都无法使用 MLUtils.loadaslibsvm() 从我用来保存它的同一路径加载 libsvm 数据。也许写入文件有问题?
最佳答案
这是 Spark 的正常行为。所有写入和读取事件都直接从工作节点并行执行,并且数据不会传入或传出驱动程序节点。
这就是为什么读写应该使用可以从每台机器访问的存储来执行,例如分布式文件系统、对象存储或数据库。将 Spark 与本地文件系统结合使用的应用非常有限。
为了进行测试,您可以使用网络文件系统(它很容易部署),但它在生产中效果不佳。
关于python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下,而不保存在 master 上,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45434189/
Spark 将正在进行的处理数据存储在 _temporary 文件夹中。作业完成后,数据将移动到其最终目的地。但是,当有数万个分区时,将文件从一个地方移动到另一个地方需要相当长的时间。问题:如何加快这
为什么spark在将结果保存到文件系统时,将结果文件上传到_temporary目录,然后将它们移动到输出文件夹而不是直接上传到输出文件夹? 最佳答案 在使用文件系统时,两阶段过程是确保最终结果一致性的
运行后 hdfs dfs -rm -r -skipTrash hdfs://valid/output/path hdfs dfs -ls hdfs://valid/output/path 并验证此输出
是否可以更改 _temporary spark在写入之前保存其临时文件的目录? 特别是,由于我正在编写表的单个分区,因此我希望临时文件夹位于分区文件夹中。 有可能吗? 最佳答案 由于它的实现,没有办法
在 Azure HDInsight 集群上使用 Python,我们使用以下代码将 Spark 数据帧作为 Parquet 文件保存到 Azure Data Lake Storage Gen2: df.
我需要将数据帧上传到 S3 存储桶,但我对存储桶没有删除权限。有什么办法可以避免在 S3 上创建这个 _temporary 目录?也许在 spark 中以任何方式使用本地 FS 作为 _tempora
我正在使用 pyspark 从 Amazon S3 上的 Parquet 文件中读取数据帧,例如 dataS3 = sql.read.parquet("s3a://" + s3_bucket_in)
我使用pyspark 并使用 MLUtils saveaslibsvm在标记点上保存 RDD 它可以工作,但会将该文件保留在/_temporary/下所有工作节点中的多个文件中。 没有抛出错误,我想将
我是一名优秀的程序员,十分优秀!