gpt4 book ai didi

python - 从数据湖重命名 Azure Databricks 中的文件时出现问题

转载 作者:行者123 更新时间:2023-12-02 06:14:27 31 4
gpt4 key购买 nike

我正在尝试使用“rename ()”函数通过“import os”库在Azure Databricks中使用Python重命名文件,这确实非常简单,但是在Databricks中执行此操作时我无法访问我的文件所在的路径。在数据湖中,但是执行命令“% fs ls path_file”是的,我看到了它,我什至可以毫无问题地读取它并使用 pyspark 处理它。

我留下一个代码示例:

import os
old_name = r"/mnt/datalake/path/part-00000-tid-1761178-3f1b0942-223-1-c000.csv"
new_name = r"/mnt/datalake/path/example.csv"

os.rename(old_name, new_name)

上面返回一个找不到路径或文件的错误,但“ls”命令可以毫无问题地执行相同的路径。

另一方面,我尝试使用pySpark重命名该文件,但它使用了我没有安装的hadoop库(org.apache.hadoop.conf.Configuration),并且无法在生产环境中安装它...

我会缺少什么?

最佳答案

如果您使用os.rename,则需要将文件引用为/dbfs/mnt/...,因为您使用的是local API to access DBFS .

但实际上,使用 dbutils.fs.mv 可能会更好进行文件重命名:

old_name = r"/mnt/datalake/path/part-00000-tid-1761178-3f1b0942-223-1-c000.csv"
new_name = r"/mnt/datalake/path/example.csv"

dbutils.fs.mv(old_name, new_name)

关于python - 从数据湖重命名 Azure Databricks 中的文件时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69826338/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com