gpt4 book ai didi

python - 重命名 dask 数据框中的列

转载 作者:行者123 更新时间:2023-11-28 20:31:46 24 4
gpt4 key购买 nike

我有两个关于 dask 的问题。第一:dask 的文档明确指出您可以使用与 pandas 相同的语法重命名列。我正在使用 dask 1.0.0。我在下面收到这些错误的任何原因?

df = pd.DataFrame(dictionary)
df

enter image description here

# I am not sure how to choose values for divisions, meta, and name. I am also pretty unsure about what these really do.
ddf = dd.DataFrame(dictionary, divisions=[8], meta=pd.DataFrame(dictionary), name='ddf')
ddf

enter image description here

cols = {'Key':'key', '0':'Datetime','1':'col1','2':'col2','3':'col3','4':'col4','5':'col5'}

ddf.rename(columns=cols, inplace=True)

TypeError: rename() got an unexpected keyword argument 'inplace'

好的,所以我删除了 inplace=True 并尝试了这个:

ddf = ddf.rename(columns=cols)

ValueError: dictionary update sequence element #0 has length 6; 2 is required

pandas 数据框显示的是一个真实的数据框,但是当我调用 ddf.compute() 时,我得到一个空的数据框。

enter image description here

我的第二个问题是,我对如何分配部门、元和名称有点困惑。如果我使用 dask 在单个机器上并行化而不是在集群上并行化,这有什么用处/有害处?

最佳答案

关于重命名,这就是我在使用 dask 时通常如何更改功能名称,也许这对你也有用:

new_columns = ['key', 'Datetime', 'col1', 'col2', 'col3', 'col4', 'col5']
df = df.rename(columns=dict(zip(df.columns, new_columns)))

关于确定分区数,文档给出了一个很好的例子,使用时间序列数据来决定如何划分数据帧:http://docs.dask.org/en/latest/dataframe-design.html#partitions .

关于python - 重命名 dask 数据框中的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53810896/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com