gpt4 book ai didi

python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下,而不保存在 master 上

转载 作者:太空宇宙 更新时间:2023-11-03 14:57:15 26 4
gpt4 key购买 nike

我使用pyspark

并使用 MLUtils saveaslibsvm在标记点上保存 RDD

它可以工作,但会将该文件保留在/_temporary/下所有工作节点中的多个文件中。

没有抛出错误,我想将文件保存在正确的文件夹中,并且最好将所有输出保存到位于节点或主节点上的一个 libsvm 文件中。

这可能吗?

编辑+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++无论我做什么,我都无法使用 MLUtils.loadaslibsvm() 从我用来保存它的同一路径加载 libsvm 数据。也许写入文件有问题?

最佳答案

这是 Spark 的正常行为。所有写入和读取事件都直接从工作节点并行执行,并且数据不会传入或传出驱动程序节点。

这就是为什么读写应该使用可以从每台机器访问的存储来执行,例如分布式文件系统、对象存储或数据库。将 Spark 与本地文件系统结合使用的应用非常有限。

为了进行测试,您可以使用网络文件系统(它很容易部署),但它在生产中效果不佳。

关于python - pyspark MLUtils saveaslibsvm 仅保存在 _temporary 下,而不保存在 master 上,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45434189/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com