gpt4 book ai didi

Python写入hdfs文件

转载 作者:可可西里 更新时间:2023-11-01 14:23:42 32 4
gpt4 key购买 nike

从本地 python 脚本在远程 HDFS 中创建/写入/更新文件的最佳方法是什么?

我能够列出文件和目录,但写入似乎是个问题。

我搜索了hdfssnakebite但他们都没有给出一个干净的方法来做到这一点。

最佳答案

试试 HDFS liberary..它真的很好你可以使用 write()。 https://hdfscli.readthedocs.io/en/latest/api.html#hdfs.client.Client.write

例子:

创建连接:

from hdfs import InsecureClient
client = InsecureClient('http://host:port', user='ann')

from json import dump, dumps
records = [
{'name': 'foo', 'weight': 1},
{'name': 'bar', 'weight': 2},
]

# As a context manager:
with client.write('data/records.jsonl', encoding='utf-8') as writer:
dump(records, writer)

# Or, passing in a generator directly:
client.write('data/records.jsonl', data=dumps(records), encoding='utf-8')

对于 CSV 你可以做

import pandas as pd
df=pd.read.csv("file.csv")
with client.write('path/output.csv', encoding = 'utf-8') as writer:
df.to_csv(writer)

关于Python写入hdfs文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47926758/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com